0% encontró este documento útil (0 votos)

148 vistas357 páginas

Estadistica Ii PDF

Cargado por

Lucero Rubio

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

148 vistas357 páginas

Estadistica Ii PDF

Cargado por

Lucero Rubio

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

1 de 357

Segundo semestre
DIRECTOR DE LA FCA
Mtro. Tomás Humberto Rubio Pérez

SECRETARIO GENERAL
Dr. Armando Tomé González

––––

COORDINACIÓN GENERAL
Mtra. Gabriela Montero Montiel
Jefa del Centro de Educación a Distancia y
Gestión del Conocimiento

COORDINACIÓN ACADÉMICA
Mtro. Francisco Hernández Mendoza
FCA-UNAM

––––
AUTORES
Lic. Manuel García Minjares
Mtra. Adriana Rodríguez Domínguez

REVISIÓN PEDAGÓGICA
Lic. Laura Antonia Fernández Lapray

CORRECCIÓN DE ESTILO
Mtro. José Alfredo Escobar Mellado

DISEÑO DE PORTADAS
[Link]. Ricardo Alberto Báez Caballero
Mtra. Marlene Olga Ramírez Chavero

DISEÑO EDITORIAL
Mtra. Marlene Olga Ramírez Chavero
.

Dr. Enrique Luis Graue Wiechers Mtro. Tomás Humberto Rubio Pérez
Rector Director

Dr. Leonardo Lomelí Vanegas Dr. Armando Tomé González

Secretario General Secretario General

Mtra. Gabriela Montero Montiel

Jefa del Centro de Educación a Distancia
y Gestión del Conocimiento / FCA

______________________________________________________
Estadística II
Apunte electrónico

Edición: agosto de 2017.

D.R. © 2010 UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Ciudad Universitaria, Delegación Coyoacán, C.P. 04510, México, Ciudad de México.

Facultad de Contaduría y Administración

Circuito Exterior s/n, Ciudad Universitaria
Delegación Coyoacán, C.P. 04510, México, Ciudad de México.

ISBN: 978-970-32-5314-2
Plan de estudios 2012, actualizado 2016.

“Prohibida la reproducción total o parcial de por cualquier medio sin la autorización escrita
del titular de los derechos patrimoniales”

“Reservados todos los derechos bajo las normas internacionales. Se le otorga el acceso no exclusivo y
no transferible para leer el texto de esta edición electrónica en la pantalla. Puede ser reproducido con
fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica;
de otra forma, se requiere la autorización escrita del titular de los derechos patrimoniales.”

Hecho en México
OBJETIVO GENERAL
Al finalizar el curso, el alumno será capaz de inferir las características de una
población con base en la información contenida, así como de contrastar diversas
pruebas para la toma de decisiones.

TEMARIO DETALLADO
(96 horas)

Horas
1. Introducción al muestreo 4
2. Distribuciones muestrales 8
3. Estimación de parámetros 10
4. Pruebas de hipótesis 10
5. Pruebas de hipótesis con la distribución ji cuadrada 8
6. Análisis de regresión lineal simple 10
7. Análisis de series de tiempo 8
8. Pruebas estadísticas no paramétricas 6

4 de 357
Tercer semestre
INTRODUCCIÓN
El plan de estudios vigente de las carreras ofrecidas por la Facultad de Contaduría y
Administración de la UNAM pretende que en su ejercicio profesional el egresado sea
capaz de analizar situaciones, evaluar acciones y decidir rumbos de acción. Esto es
imposible si no dispone de información.

A fin de proveer al estudiante de herramientas para analizar información, dentro del

mapa curricular de las carreras de la Facultad de Contaduría y Administración están
las asignaturas de Estadística Descriptiva y Estadística II, materias de conocimientos
fundamentales porque contribuyen a desarrollar capacidades de análisis y síntesis
que el alumno necesita para una toma de decisiones adecuada.

A diferencia de la estadística descriptiva, donde la toma de decisiones descansa en

la descripción de la información de una muestra, en la Estadística II el fundamento

5 de 357
Tercer semestre
son las pruebas estadísticas que permiten inferir alguna característica de interés de
una población con base en la información de una muestra.

El objetivo general de la materia Estadística II, establecida en el plan 2012, es que al

término del curso el alumno sea capaz de inferir las características de una población
con base en la información contenida en una muestra, y pueda contrastar diversas
pruebas para la toma de decisiones. Para alcanzar este propósito, el programa
comprende las siguientes unidades:

2.
1. Introducción 3. Estimación 4. Pruebas de
Distribuciones
al muestreo de parámetros hipótesis
muestrales

5. Pruebas de 6. Análisis de 7. Análisis de 8. Pruebas

hipótesis con
una distribución regresión lineal series de estadísticas no
ji cuadrada simple tiempo paramétricas

El estudio de las unidades 1-3 permitirá alcanzar la primera parte del objetivo
general. La unidad 1 tiene la finalidad de que el estudiante conozca de forma global
cómo se obtiene una muestra. La unidad 2 presenta las distribuciones muestrales
más empleadas en inferencia estadística. Y la unidad 3 se enfoca a la realización de
estimaciones de los parámetros de una población a través de la información de una
muestra.

Una vez entendido cómo recolectar y obtener información de las muestras, lo

siguiente que plantea el objetivo general es contrastar hipótesis con base en pruebas

6 de 357
Tercer semestre
estadísticas realizadas con la información de una muestra. De esto tratan, en
conjunto con la unidad 2, las unidades 4 y 5.

En la unidad 6, se muestra cómo analizar la

regresión lineal simple para explicar el
comportamiento de una variable a partir
de otra. En este tipo de análisis, el
contraste de hipótesis juega un papel
central en la determinación de la
existencia de esta relación, al igual que el
tema de estimación para entender por qué son
empleados los estimadores de mínimos cuadrados.

En la unidad 7, se busca que el alumno explique el comportamiento de una variable a

lo largo del tiempo y realice un pronóstico de ella.

En la unidad 8, último tema del programa, se enseña al alumno a realizar análisis

inferencial con métodos no paramétricos.

Como valor agregado, se plantea cómo emplear Microsoft Excel (2013) para aplicar
algunas técnicas que se expondrán a lo largo de esta obra.

Este material está pensado para que el estudiante del SUAyED tenga un primer
acercamiento a la Estadística II, cuyo aprendizaje autodidacta requiere de un
contenido que facilite su comprensión y fomente profundizar en los temas con la
consulta de la bibliografía sugerida. También puede aprovecharlo el estudiante del
sistema escolarizado.

7 de 357
Tercer semestre
ESTRUCTURA CONCEPTUAL

Estadística inferencial
Tiene un enfoque
Paramétrico No Paramétrico
Se conoce la No se conoce
distribución de la distribución
la población Es necesario de la población

Se aplican Obtener una Con la información

muestra Realizar
Distribuciones pruebas no
muestrales paramétricas

Para

Estimar o Contrastar
parámetros hipótesis

Algunas técnicas de análisis que estiman o

contrastan parámetros son:

Análisis de
Análisis de y Series de
regresión lineal
tiempo

8 de 357
Tercer semestre
UNIDAD 1

Introducción al muestreo

9 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno reconocerá los diferentes tipos de muestreo y sus
características.

TEMARIO DETALLADO
(4 horas)

1. Introducción al muestreo
1.1. Parámetros estadísticos y estimadores
1.2. Estimación de parámetros y pruebas de hipótesis
1.3. Muestreo aleatorio y muestreo de juicio
1.4. Muestras únicas y muestras múltiples
1.5. Muestras independientes y muestras relacionadas
1.6. Tipos de muestreo aleatorio

10 de 357
Tercer semestre
INTRODUCCIÓN

El éxito de cualquier toma de decisiones depende de la calidad de información que

se tenga. Hoy día, uno de los retos de las organizaciones es disponer de información
accesible, detallada y actualizada que promueva una acertada toma de decisiones.
En el desempeño profesional es común encontrar situaciones donde no se posee la
suficiente información para tomar una decisión, por lo que se vuelve necesario
realizar un esfuerzo extraordinario para recabarla; el dilema, entonces, es determinar
cuánta información se requiere.

En esta unidad, se expone la importancia de la metodología del muestreo para

extraer información que garantice resultados confiables.

En primer lugar, se da una introducción de conceptos importantes en

estadística inferencial (parámetro, estimador y estadístico).

Luego, se abordan los alcances de la materia (estimación y prueba de

hipótesis), así como los tipos de muestreo y de muestras para trabajar
en un estudio.

Por último, se plantean brevemente las metodologías de muestreo

más comunes y ejemplos de cálculos de tamaños de muestra para
estimar un promedio y una proporción poblacional.

Como aportación adicional, se describe el uso de MS-Excel para extraer

una muestra.

11 de 357
Tercer semestre
1.1. Parámetros, estadísticos
y estimadores
En el curso de Estadística Descriptiva, se brindaron las herramientas para describir
el comportamiento de un conjunto de datos con el empleo de tablas, gráficas y
medidas descriptivas. Así, después de llevar a cabo los procedimientos para
generarlos, se puede concluir acerca de la distribución de los datos su valor medio y
variabilidad, y con base en ello tomar decisiones. Sin embargo, con frecuencia, la
información descrita es un subconjunto o muestra proveniente de un conjunto mayor
del que se desea conocer su comportamiento. Entonces, surge la pregunta si la
información descrita en la muestra se puede generalizar a la población. Por ejemplo,
si el promedio del porcentaje de aciertos de un examen de conocimientos de
matemáticas aplicado a un grupo de Contaduría de primer semestre del turno
matutino de la Facultad de Contaduría y Administración de la UNAM es 56%, ¿se
podría decir que este resultado es generalizable a toda la población de la Facultad
de Contaduría y Administración de la UNAM? El curso de Estadística II
proporcionará los fundamentos para responder esta pregunta.

De acuerdo con lo estudiado en el curso de Estadística Descriptiva, el

comportamiento de la distribución de una variable se encuentra
relacionado con un valor denominado parámetro. Como
ejemplo, supóngase que la proporción de personas que leen
revistas sobre noticias de espectáculos es de 0.7 entre los
estudiantes de primer semestre de Administración de la
Facultad de Contaduría y Administración, y se desea estudiar el

12 de 357
Tercer semestre
número de estudiantes que leen este tipo de publicaciones en una muestra de 20
estudiantes. La distribución de probabilidades de la variable asociada al ejercicio
sería como se muestra en la figura 1.

Figura 1. Distribución de probabilidad del número de alumnos que leen revistas de

espectáculos con una proporción de 0.7 y 20 encuestas aplicadas

Fuente: elaboración propia con empleo de Microsoft Excel (2013)

En la figura anterior, se muestra la distribución de probabilidades de la variable

asociada al experimento: número de estudiantes que leen revistas de espectáculos
en 20 entrevistas. La variable estudiada en este experimento tiene una distribución
binomial con n = 20 y p = 0.7. Las mayores probabilidades se observan entre 13 y 15
estudiantes. Es decir, es más probable que en el experimento resulte ese número de
estudiantes quienes leen revistas sobre espectáculos.

Continuando con este ejemplo, ¿cómo sería la distribución de la variable asociada al

experimento si la proporción de personas que leen publicaciones con contenidos de
espectáculos fuera de 0.35 en vez de 0.7? La respuesta se muestra en la figura 2.

13 de 357
Tercer semestre
Figura 2. Distribución de probabilidad del número de alumnos que leen revistas de
espectáculos con una proporción de 0.35 y 20 encuestas aplicadas

Fuente: elaboración propia con empleo de Microsoft Excel (2013).

La figura anterior muestra un patrón distinto al de la figura 1. En este caso, se

observa una probabilidad mayor de que entre 6 y 8 de las 20 personas entrevistadas
lean revistas de espectáculos.

En este ejemplo, modificar la proporción de alumnos que leen revistas de

espectáculos cambió la distribución de probabilidades de la variable asociada al
experimento. Y esta proporción es un parámetro cuyo valor condiciona la distribución
de la variable de interés.

14 de 357
Tercer semestre
El ejemplo anterior muestra el efecto del valor de un parámetro en la distribución de
una variable de interés, pero normalmente se ignora el valor de este parámetro y
debe fijarse su valor. Supóngase que en el ejemplo anterior el problema de interés
hubiera sido determinar la proporción de estudiantes de primer semestre de
Administración de la Facultad de Contaduría y Administración de la UNAM que leen
revistas de espectáculos a partir de entrevistar a 20 estudiantes. Supóngase que, de
los 20 entrevistados, 8 leen esta clase de revistas. Entonces, de acuerdo con los
resultados de esta muestra, la proporción de estudiantes que leen revistas de
𝟖𝟖 é𝒙𝒙𝒙𝒙𝒙𝒙𝒙𝒙𝒙𝒙
espectáculos es = 𝟎𝟎. 𝟒𝟒. La división realizada, , es un estimador
𝟐𝟐𝟐𝟐 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕ñ𝒐𝒐 𝒅𝒅𝒅𝒅 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎
de la proporción de estudiantes de la población de interés que leen revistas de
espectáculos, y el valor obtenido es una estimación.

Supóngase además que en vez de un valor se quisiera tener un rango de valores

donde fuera más probable que se encuentre la proporción real (con base en los
valores de la muestra, se analizará en la unidad 3 que la proporción real se
encuentra entre 0.18 y 0.61).

Estimador

Es una regla o fórmula a aplicar con los

valores de una muestra para determinar el
valor de un parámetro poblacional que se
interesa conocer.

En la unidad 3 de este curso, se mostrarán los estimadores más utilizados, así como
la manera de realizar estimaciones, ya sea con valores puntuales o con un rango de
valores posibles.

15 de 357
Tercer semestre
Regresando al ejemplo, ahora supóngase que, de acuerdo con la experiencia de
estudios anteriores, se sabe que la proporción de alumnos que leen revistas de
espectáculos es de 0.37, y se sospecha que esta proporción es mayor en esta
generación. ¿El resultado obtenido en la muestra (0.4) nos permite afirmar que la
proporción es mayor? En la unidad 4, se podrá contestar esta pregunta con el
empleo de estadísticos de prueba, valores basados en la distribución y valores
muestrales que permiten tomar una decisión sobre si apoyar o no una hipótesis. En
este caso, el estadístico es de 0.274, por lo que no existe evidencia estadística para
apoyar que la proporción de alumnos que leen revistas de espectáculo es mayor a
0.37.

Se puede afirmar que:

La estadística inferencial

Pretende determinar el valor de parámetros poblacionales utilizando

estimadores o estadísticos de prueba con los valores de una muestra.

16 de 357
Tercer semestre
1.2. Estimación de parámetros y
pruebas de hipótesis
En la sección anterior, se comentó que la Estadística II busca determinar el valor de
parámetros poblacionales a partir de una muestra con el empleo de estimadores o
estadísticos de prueba. Así, la Estadística II afronta dos problemáticas: estimación
de parámetros y pruebas de hipótesis.

Estimación de parámetros

•Se pretende fijar el valor de un parámetro poblacional que se interesa conocer a través
de una regla o fórmula basada en los valores de la muestra.

En el apartado precedente, se planteó el caso donde se deseaba determinar la

proporción de estudiantes que leen revistas de espectáculos, que toma el papel de
parámetro poblacional. Luego de entrevistar a 20 estudiantes, se obtuvo que 8 de
ellos (0.4) leen revistas de este tipo. Aquí, el estimador es la división de los 8 casos
que leen revistas entre el total de casos. En la unidad 3, se revisará cómo realizar
estimaciones puntuales o por intervalos.

Pruebas o contrastes de hipótesis

Consisten en apoyar o rechazar una hipótesis acerca del valor de un

parámetro poblacional a través del uso de un estadístico de prueba.

En la unidad 4, esto se abordará con mayor profundidad. En el ejemplo del subtema

anterior, se contrastaron dos hipótesis al final: la proporción es 0.37; la proporción se
ha incrementado. Después de aplicar un estadístico de prueba, se concluye que no
existe evidencia para rechazar que la proporción es 0.37.

17 de 357
Tercer semestre
1.3. Muestreo aleatorio y
muestreo de juicio
Como se ha mencionado, en Estadística II se intenta determinar el valor de un
parámetro poblacional a partir de los valores de una muestra: tanto el tamaño como
la manera de extraer esta muestra determinará la validez de los resultados. Antes de
enfocarnos a los tipos de muestreo, es importante mencionar algunos conceptos
básicos relacionados con el muestreo.

Se llama así al total de unidades que cumplen con

ciertas características medibles a las cuales se les
Población
aplicarán métodos estadísticos para su estudio. El
tamaño de la población es denotada con la letra N.

Como ejemplo, supóngase que se desea estudiar los hábitos de estudio de los
alumnos vigentes de la Facultad de Contaduría y Administración de la UNAM de la
modalidad a distancia. Así, la población son los alumnos vigentes de la modalidad a
distancia de la Facultad de Contaduría y Administración de la UNAM.

•Es la medición realizada a todas de unidades

Censo
que conforman la población.

Supóngase que se desea conocer el número de empleados que tienen las 10

tiendas de conveniencia ubicadas en cierta colonia. Si se verifica la información de
las 10 tiendas, entonces se realiza un censo.

18 de 357
Tercer semestre
Muestreo Es la metodología con la que se determina el número de elementos que
serán seleccionados de la población para formar un subconjunto llamado
muestra.

Muestra Es un subconjunto de la población cuyos elementos son elegidos mediante

alguna metodología de muestreo; su estudio permitirá realizar inferencias
respecto a la población. El tamaño de muestra se denota con la letra n.

Muestra Se dice que una muestra es representativa cuando las unidades que la
representativa conforman contienen las diferentes características de la población en una
proporción semejante, de manera que es una imagen de ella.

Unidad muestral Unidad más pequeña de la que se recaban las mediciones.

Marco muestral Fuente de referencia de donde se selecciona la muestra. Como ejemplo,

supóngase que se desea obtener información de los empleados de una
empresa a través de una muestra, el marco muestral es la nómina de la
última quincena.

Conveniencia de realizar un censo o levantar una muestra

Cuando se necesita levantar información, en ocasiones, surge el dilema de si es

conveniente recabar la información a través de un censo o de una muestra. El censo
es recomendable si el tamaño de la población no es demasiado grande o cuando los
resultados tienen trascendencia. Por ejemplo, si un profesor imparte su clase a un
grupo de 50 alumnos y desea conocer cuántos van a faltar un día previo a una fecha
festiva, puede obtener la información preguntando a todo su grupo. Otro caso es el
proceso de admisión a licenciatura en la UNAM, donde alrededor de 150,000
estudiantes aplican un examen de admisión. La asignación es realizada una vez que
se han calificado todos los exámenes, y no a través de una muestra.

19 de 357
Tercer semestre
El muestreo conviene si no se cuenta con
suficientes recursos para llevar a cabo un censo, y
cuando los resultados permitan tener cierto
margen de error. Una de sus principales ventajas
es que se logra ahorrar costos y tiempos, y se
tiene un mejor control (véase figura 3).

Figura 3. Ventajas del muestreo

VENTAJAS DEL MUESTREO

Menor costo Menor tiempo Mayor control

En la capacitación del personal

En la recolección, el análisis y obtención de resultados
En el control de personal

La figura anterior ilustra las ventajas del muestreo: menor costo, menor tiempo y
mayor control en capacitar al personal, recolectar y analizar la información, y el
control de campo. Todo esto conlleva una disminución del riesgo de cometer errores.

Muestreo aleatorio y muestreo de juicio

Para obtener una muestra, puede emplearse un muestreo aleatorio (probabilístico) o

uno de juicio (no probabilístico). En el aleatorio, la selección de un elemento de la
población depende del azar; mientras que en uno de juicio, la selección se basa en
el criterio del investigador.

20 de 357
Tercer semestre
En la figura 4, se contrastan las principales diferencias entre el muestreo aleatorio
(probabilístico) y el de juicio (no probabilístico).

Figura 4. Características del muestreo aleatorio (probabilístico)

y de juicio (no probabilístico)

MUESTREO

Probabilístico No probabilístico

Considera la aleatoriedad para la No considera el azar para la

selección de cada unidad de la selección.
población.

Se emplean métodos estadísticos. Se realiza a juicio personal.

Los resultados se extrapolan a la Los resultados tienen validez solo

población estudiada para los elementos de la muestra.

En este curso, cuando se hable de los resultados de una muestra, se estará

haciendo referencia a un muestreo aleatorio (probabilístico). De igual manera,
cuando se mencione muestreo probabilístico, se estará refiriendo a un muestreo
aleatorio.

21 de 357
Tercer semestre
1.4. Muestras únicas y
muestras múltiples
En la sección anterior, se habló acerca de los tipos de muestreo que pueden
emplearse para seleccionar una muestra. Normalmente, se requiere una muestra
única para realizar inferencias de la población.

Como ejemplo, supóngase que se desea conocer las horas de estudio que los
estudiantes de primer ingreso de la Facultad de Contaduría y Administración de la
UNAM dedican a materias de matemáticas después del horario de clase. Para
conocer este dato, es suficiente una muestra de alumnos a quienes se pregunte
sobre qué tiempo dedican a estudiar matemáticas luego del horario de clase. En
este ejemplo, el estudio se centra en una
población, pero cuando interesa estudiar más de
una población, se necesitará extraer muestras
de cada una, por lo que el estudio requiere
muestras múltiples. Para ilustrar esta situación,
supóngase que se desea dar seguimiento a los
egresados de posgrado de la UNAM, tanto de
maestría como de doctorado. Dado que las
poblaciones de maestría y doctorado son
diferentes, se procede a extraer una muestra de
los egresados de maestría y otra de los
egresados de doctorado.

22 de 357
Tercer semestre
1.5. Muestras independientes y
muestras relacionadas
En Estadística II, es frecuente querer realizar un comparativo entre grupos para
confirmar si existe una diferencia significativa entre ellos.

Muestras
independientes.

Cuando los grupos son muestras de poblaciones

independientes, el estudio contempla.

Por ejemplo, se quiere conocer si los alumnos de Administración tienen mejor

aprovechamiento en la asignatura Estadística Descriptiva en comparación con los de
Contaduría. Para tal fin, se compara un grupo de estudiantes de Administración con
uno de Contaduría y se realizan las mediciones correspondientes.

Muestra relacionada.

Cuando se efectúan mediciones de la misma

muestra, pero en condiciones diferentes.

Por ejemplo, para complementar su estudio de Matemáticas Financieras, a un grupo

de alumnos de Contaduría se les imparte un taller: ingresan a un portal donde
resuelven problemas relacionados con la materia y se les aplica una evaluación al
comienzo y final del semestre para medir la mejora de su aprovechamiento. Al
mismo tiempo, se da seguimiento a un grupo control, el cual recibe la impartición
tradicional del curso para contrastar la mejora. En este caso, como se trata del
mismo grupo en diferentes momentos, el estudio trabaja con una muestra
relacionada.

23 de 357
Tercer semestre
1.6. Tipos de muestreo aleatorio
En el subtema 1.3, se mencionó que el muestreo puede ser aleatorio (probabilístico)
y de juicio (no probabilístico). Ahora, en la figura 5 se desglosan los principales tipos
de muestreo de cada uno.

Figura 5. Principales tipos de muestreo aleatorio (probabilístico)

y de juicio (no probabilístico)

Muestreo

No probabilístico Probabilístico

Por cuota Bola de Nieve Juicio

Aleatorio
Sistemático Estratificado Conglomerados
simple

Fuente: elaboración propia.

En este apartado, se expondrán los tipos de muestreo aleatorio: aleatorio simple,

sistemático, estratificado y de conglomerados. Y los de juicio (no probabilístico): por
cuota, juicio y bola de nieve.

24 de 357
Tercer semestre
A. Tipos de muestreo por juicio (no probabilísticos)

Muestreo por cuota

En este tipo de esquema de muestreo, predomina el criterio del

investigador. Por lo general, se aplica cuando la persona
encargada del estudio conoce bien las características de las
unidades en estudio, por lo que fija el número de unidades que
serán consideradas.

Por ejemplo, en un estudio de mercado, el gerente

encargado en la venta de pañales quiere identificar la
aceptación de un nuevo pañal con olor a chocolate, por lo
que pide a la gente de campo que en cada supermercado
muestre y dé a oler el pañal para conocer la reacción de
las primeras 20 mamás que vayan a comprar algún pañal
de la marca.

Muestreo por
juicio o
intencional

A criterio del investigador, son elegidos los elementos que pueden

aportar al estudio.

Ejemplo: se quiere saber el estilo de liderazgo del Lic. José

Luis Domínguez, gerente de ventas de la empresa ABDE, por
lo que el área de recursos humanos entrevista a cinco
personas que han trabajado con él.

25 de 357
Tercer semestre
Muestreo de bola de
nieve

Este método se aplica para eventos donde es difícil recabar información,

por tal razón, al encontrar una unidad que cumpla con las características
que se buscan en el estudio, se espera que éste nos contacte con otro y
ése con otro, y así sucesivamente hasta conseguir una muestra
suficiente.

Por ejemplo, se quiere realizar un estudio de resistencia a

alguna enfermedad en personas que su alimentación sea a
base de insectos; o una psicoanalista desea probar que los
reclusos que han asesinado más de cinco veces pueden ser
buenos padres.

B. Tipos de muestreo aleatorio (probabilísticos)

En el muestreo aleatorio, la selección de la muestra considera el azar, de manera

que cada elemento de la población tiene una probabilidad de ser incluido en la
muestra.

A continuación, se exponen brevemente los tipos de muestreo aleatorio: aleatorio

simple, sistemático, estratificado y de conglomerados. Después, se aborda un tema
de mucha importancia: la determinación del tamaño de muestra en un muestreo
aleatorio simple; y se termina con un ejemplo de cómo se obtiene una muestra con
MS-Excel.

26 de 357
Tercer semestre
Muestreo aleatorio simple

En este método, las unidades de población tienen la misma

probabilidad de ser elegidas. Cada elemento es seleccionado
aleatoriamente.

En la figura 6, se ilustra cómo funciona

esta metodología, se esquematiza la Figura 6. Funcionamiento del
manera cómo funciona el muestreo muestreo aleatorio simple

aleatorio simple. El óvalo de mayor

tamaño representa la población de
interés; y los puntos contenidos, las
unidades muestrales. En tanto, el óvalo
de menor tamaño simboliza la muestra
extraída de la población.

Las flechas indican que las unidades

muestrales contenidas en la muestra
provienen de la población. La elección
Fuente: elaboración propia.
de las unidades muestrales se realizó
de manera aleatoria.

Por ejemplo, en la comida de fin de año de una empresa se realiza una rifa con 20
premios. Se meten todos los nombres de los empleados en una tómbola y se van
extrayendo los ganadores uno a uno de forma aleatoria.

27 de 357
Tercer semestre
Muestreo sistemático

A diferencia del anterior, en este método los elementos de la

población son seleccionados cada K números, donde K es un
valor constante que se determina a través de dividir el tamaño
de la población entre el tamaño de la muestra deseada:

𝑵𝑵
𝑲𝑲 =
𝒏𝒏

Se presenta a continuación la aplicación de este tipo de muestreo.

Una universidad cuenta con 36 alumnos de

excelencia y desea extraer de ellos una muestra de
9 para aplicarles una evaluación psicométrica.
¿Cómo se debe seleccionar la muestra con un
muestreo sistemático?

En este problema, el tamaño de la población (N) es 36; y el de la muestra (n), 9. Por

tanto, la constante K es

𝟑𝟑𝟑𝟑
𝑲𝑲 = = 𝟒𝟒
𝟗𝟗

Este resultado indica que, de cada 4 alumnos, se escogerá uno para que sea parte
de la muestra. Este resultado también apunta que se pueden extraer 4 muestras
sistemáticas de tamaño 9. El método funcionaría de la siguiente manera: se
numeran del 1 al 36 a los alumnos de excelencia; posteriormente, se elige un
número aleatorio entre 1 y K (4), y a partir de ahí se selecciona cada K elemento.
Supóngase que se escoge como primer alumno de la muestra al que se encuentra
numerado con 4, entonces la muestra se conformaría con los alumnos numerados

28 de 357
Tercer semestre
con 4, 8, 12, 16, 20, 24, 28, 32 y 36. En la figura 7, se ilustra esta metodología para
el ejemplo.

Figura 7. Selección de una muestra sistemática para una población

de tamaño 36 y una muestra de tamaño 9 con la unidad 4 como primer
elemento de la muestra

Población
i=4
Opción para
comenzar el conteo

1 2 3 4 5 6 7 8 9 10 11 12

13 14 15 16 17 18 19 20 21 22 23 24

25 26 27 28 29 30 31 32 33 34 35 36

Muestra
4 8 12 16 20 24 28 32 36

Fuente: elaboración propia.

Muestreo estratificado

En el muestreo estratificado, la población es dividida en

categorías diferentes entre sí, llamadas estratos, que poseen
gran homogeneidad respecto a alguna característica (por
ejemplo, profesión, sexo, estado civil, etcétera). Lo que se
pretende con este tipo de muestreo es asegurar que todos los
estratos de interés estarán representados adecuadamente en
la muestra, además de ganar precisión.

Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos un

muestreo aleatorio simple o sistemático para elegir los elementos que formarán

29 de 357
Tercer semestre
parte de la muestra. Para ejemplificar esta metodología, supóngase que se quiere
conocer la periodicidad con que 36 familias acuden al supermercado. A fin de
estudiar mejor la población, se decidió segmentarla en tres estratos de acuerdo con
su nivel de ingreso mensual: con ingresos menores a $10,000; con ingresos entre
$10,000 y $20,000; con ingresos mayores de $20,000. Dado lo anterior, se decidió
tomar una muestra de tamaño 10, donde estuvieran representados los tres estratos.
En la figura 8, se ilustra este tipo de muestreo.

Figura 8. Ilustración de un muestreo estratificado para una población

de 36 familias dividida en tres estratos de ingreso, de la que se
extrae una muestra de tamaño 10
Población
1 2 3 4 5 6 7 8 9 10 11 12

Familias 13 14 15 16 17 18 19 20 21 22 23 24

25 26 27 28 29 30 31 32 33 34 35 36

Determinamos el número de estratos y calcular

cuántos elementos tiene cada estrato.
10,000 ≤ Ingresos < 20,000
Ingresos < 10,000 20,000 ≤Ingresos
1 4 5 8 13
3 4 16
32 23 36
17 23 5
13 27
7 20 22
28 35 26 24

Muestra
17 23 7 3 4 32 8 23 24 36
n=10
Fuente: elaboración propia.

La figura anterior ilustra cómo se agrupa a la población original en tres estratos de

ingreso, y de cada uno se extraen elementos para conformar el tamaño total de
muestra que se necesita. Es práctica común que el número de elementos de la
muestra de cada estrato sea proporcional al tamaño del estrato con respecto al total
poblacional.

30 de 357
Tercer semestre
Muestreo por conglomerados

En este tipo de muestreo, cada unidad de la muestra está formada por un grupo de
elementos, al que se le llama conglomerado. Este grupo contiene representantes de
toda la población (de acuerdo con la característica que se mida).

Muestreo por conglomerados

El muestreo por conglomerados consiste en seleccionar

aleatoriamente el número de conglomerados necesario para
alcanzar el tamaño muestral, donde se investigan a todos los
elementos que componen los conglomerados elegidos, o a
una muestra.

La figura 9 ejemplifica esta metodología para una población de 36 elementos

agrupados en tres conglomerados de 12 elementos cada uno.

31 de 357
Tercer semestre
Figura 9. Ilustración de un muestreo por conglomerados donde se extrae
una muestra de tamaño 10 de una población de 36 elementos
agrupados en tres conglomerados de tamaño 12

Población
1 2 3 4 5 6 7 8 9 10 11 12

13 14 15 16 17 18 19 20 21 22 23 24

25 26 27 28 29 30 31 32 33 34 35 36

n=10 Calcular el número de conglomerados y

cuántos datos hay en cada un de ellos.

1 4 6 17
7 21
16 26 3 5 2 8 36
18 22
14 19 30 20 24
27

Muestra
16 4 26 5 2 20 6 22 21 36

Fuente: elaboración propia.

En la figura anterior, el diseño de muestreo por conglomerados aplicado es el

siguiente: se consideran los tres conglomerados y de cada uno se extrae una
muestra. En una segunda etapa, se extrae otra muestra de la anterior conformando
los 10 elementos que se necesitaban.

Se pueden presentar variantes en el muestreo por conglomerados de acuerdo con el

contexto de la situación, pero en esencia la metodología consiste en seleccionar una
muestra de conglomerados y escoger de cada uno una muestra de las unidades que
lo conforman.

Errores de estimación

Al aplicar un muestreo, existirá un error en las estimaciones porque no se está

recabando información de toda la población, por ello el arte del muestreo consiste en
determinar la muestra que minimice ese error. Cuando se recaba información de una
muestra, se pueden presentar dos tipos de errores:

32 de 357
Tercer semestre
Atribuibles al muestreo No atribuibles al muestreo

Son por la diferencia

entre el valor del Se explican, entre otras
estimador muestral y el causas, por un mal
valor del parámetro diseño del instrumento, la
poblacional considerando logística implementada o
la información de la una elevada tasa de no
muestra con la que se respuesta.
trabajó.

Cálculo del tamaño de muestra en un muestreo aleatorio simple

Como se mencionó en el apartado anterior, en todo ejercicio de muestreo va a existir

un error de estimación, por lo que de antemano debe fijarse el límite de error
permitido, así como garantizar que ese error no sea mayor a lo permitido en un
cierto número de repeticiones. Para lograr lo anterior, el tamaño de muestra juega un
papel central, ya que, a medida que se tenga mayor información de un parámetro, se
incrementa la probabilidad de realizar una estimación certera.

En la siguiente tabla, se exponen las fórmulas para calcular el tamaño de una

muestra para estimar una media y una proporción (parámetros) cuando se tiene
conocimiento del tamaño de la población N y cuando no es así 1.

𝒏𝒏
1 Para efectos de este curso, se asumirá que la fracción no es importante.0.
𝑵𝑵

33 de 357
Tercer semestre
Tabla 1. Fórmulas para calcular el tamaño de muestra para estimar una media
y proporción poblacional cuando se conoce o no el tamaño de la población

Parámetro N conocida N desconocida

𝒁𝒁𝟐𝟐 𝑺𝑺𝟐𝟐 𝑵𝑵 𝒁𝒁𝟐𝟐 𝑺𝑺𝟐𝟐

Media 𝒏𝒏 = 𝒏𝒏 =
𝑵𝑵𝒆𝒆𝟐𝟐 + 𝒁𝒁𝟐𝟐 𝑺𝑺𝟐𝟐 𝒆𝒆𝟐𝟐

𝒁𝒁𝟐𝟐 𝒑𝒑𝒑𝒑𝒑𝒑 𝒁𝒁𝟐𝟐 𝒑𝒑𝒑𝒑

Proporción 𝒏𝒏 = 𝒏𝒏 = 𝟐𝟐
𝑵𝑵𝒆𝒆𝟐𝟐 + 𝒁𝒁𝟐𝟐 𝒑𝒑𝒑𝒑 𝒆𝒆

Donde:

• tamaño de la muestra
n

• tamaño de la población
N

• desviación estándar
S

• proporción muestral
p

•1 – p
q

• error permitido
e

• Nivel de confianza, expresado como valor del cuantil z de una distribución normal
Z estándar que separa la curva en dos áreas de tamaño 1 – α/2 y α/2 (0<α<1).

En la tabla 2, se muestran los valores de z para niveles de confianza de 90%, 95% y

99%.

34 de 357
Tercer semestre
Tabla 2. Valores de z para niveles de confianza de 90%, 95% y 99%

Nivel de confianza z
90% 1.64
95% 1.96
99% 2.58

Como se mencionó, estos valores z son los cuantiles de una distribución normal
estándar que separa la curva en dos áreas de tamaño 1 – α/2 y α/2 (0<α<1). Por
ejemplo, para un nivel de confianza de 95%, α = 1 – 0.95 = 0.05 y α/2 = 0.05/2 =
0.025. El cuantil z = 1.96 separa la curva normal estándar en dos regiones de
tamaño 1 – 0.025 = 0.975 y 0.025.

Ejemplos de cálculo de tamaño de muestra

A continuación, se muestran ejemplos de cómo calcular el tamaño de muestra para

estimar una media o proporción poblacional.

1. Calcular el tamaño de muestra que se requiere para estimar el ingreso medio de

un despacho de consultoría de 90 empleados en nómina, donde se conoce que
existe una desviación de $15,000. El tamaño de muestra debe garantizar un error de
estimación máximo de $5,000, con un nivel de significancia del 95%.
¿Qué variables se conocen?
N = 90
S = 15,000
e = 5,000
Z = 1.96 (véase tabla 2)

¿Se conoce o no el valor de N? Sí, N = 90.

¿Es un cálculo para un promedio o una proporción? Promedio, ya que se pide
estimar el gasto administrativo medio.

35 de 357
Tercer semestre
Fórmula que se aplica: Sustituyendo los valores:

𝟏𝟏. 𝟗𝟗𝟗𝟗𝟐𝟐 ∙ 𝟏𝟏𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐 ∙ 𝟗𝟗𝟗𝟗

𝒏𝒏 =
𝟗𝟗𝟗𝟗 ∙ 𝟓𝟓, 𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐 + 𝟏𝟏. 𝟗𝟗𝟗𝟗𝟐𝟐 ∙ 𝟏𝟏𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐

𝟑𝟑. 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖 ∙ 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟎𝟎𝟎𝟎𝟎𝟎, 𝟎𝟎𝟎𝟎𝟎𝟎 ∙ 𝟗𝟗𝟗𝟗

𝒏𝒏 =
𝟗𝟗𝟗𝟗 ∙ 𝟐𝟐𝟐𝟐, 𝟎𝟎𝟎𝟎𝟎𝟎, 𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟑𝟑. 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖 ∙ 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟎𝟎𝟎𝟎𝟎𝟎, 𝟎𝟎𝟎𝟎𝟎𝟎

𝟕𝟕𝟕𝟕, 𝟕𝟕𝟕𝟕𝟕𝟕, 𝟓𝟓𝟓𝟓𝟓𝟓, 𝟏𝟏𝟏𝟏𝟏𝟏

𝒁𝒁𝟐𝟐 𝑺𝑺𝟐𝟐 𝑵𝑵 𝒏𝒏 =
𝒏𝒏 = 𝟐𝟐, 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟎𝟎𝟎𝟎𝟎𝟎, 𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟖𝟖𝟖𝟖𝟖𝟖, 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟕𝟕
𝑵𝑵𝒆𝒆𝟐𝟐 + 𝒁𝒁𝟐𝟐 𝑺𝑺𝟐𝟐
𝟕𝟕𝟕𝟕, 𝟕𝟕𝟕𝟕𝟕𝟕, 𝟓𝟓𝟓𝟓𝟓𝟓, 𝟏𝟏𝟏𝟏𝟏𝟏
𝒏𝒏 =
𝟑𝟑, 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟐𝟐𝟐𝟐𝟐𝟐
𝒏𝒏 = 𝟐𝟐𝟐𝟐. 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
𝒏𝒏 = 𝟐𝟐𝟐𝟐
Es decir, se tomará una muestra de 25 empleados.

2. Se desea conocer cuál es el grado de satisfacción de los 3582 alumnos de primer

ingreso de la Facultad de Contaduría y Administración de la UNAM con respecto al
servicio de las ventanillas. En las últimas tres generaciones, esta aceptación fue del
40%. Es necesario determinar a cuántos alumnos hay que entrevistar para
garantizar un error máximo de 10 puntos porcentuales con un nivel de significancia
del 90%.

¿Qué variables se conocen?

N = 3582 alumnos
P = 40% = 0.4
e = 10%, es decir, 0.10
Z = 1.64 (véase tabla 2)

Dado que el parámetro que se busca estimar es una proporción, el tamaño de

muestra se determina con la siguiente fórmula:

36 de 357
Tercer semestre
Fórmula que se aplica: Sustituyendo los valores:
Para este caso, falta calcular q, se sabe que q = 1–
p, entonces:
q = 1 – 0.4 = 0.6.
Así:
(𝟏𝟏. 𝟔𝟔𝟔𝟔𝟐𝟐 )(𝟎𝟎. 𝟒𝟒)(𝟎𝟎. 𝟔𝟔)(𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓)
𝒏𝒏 =
(𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓)(𝟎𝟎. 𝟏𝟏)𝟐𝟐 + (𝟏𝟏. 𝟔𝟔𝟔𝟔𝟐𝟐 )(𝟎𝟎. 𝟒𝟒)(𝟎𝟎. 𝟔𝟔)
𝒁𝒁𝟐𝟐 𝒑𝒑𝒑𝒑𝒑𝒑
𝒏𝒏 = 𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝑵𝑵𝒆𝒆𝟐𝟐 + 𝒁𝒁𝟐𝟐 𝒑𝒑𝒑𝒑 𝒏𝒏 =
𝟑𝟑𝟑𝟑. 𝟖𝟖𝟖𝟖 + 𝟎𝟎. 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔
𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝒏𝒏 =
𝟑𝟑𝟑𝟑. 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝒏𝒏 = 𝟔𝟔𝟔𝟔. 𝟒𝟒𝟒𝟒 = 𝟔𝟔𝟔𝟔
Con 64 entrevistas, se garantiza una estimación de P
con un error de 10% y un nivel de confianza de 90%.

3. Una empresa que comercializa aparatos electrónicos desea estimar el número

promedio de aparatos que adquieren anualmente sus principales clientes. Se conoce
que la desviación estándar es de 90 aparatos. Es necesario calcular el tamaño de
muestra que garantice un nivel de confianza de 99% con un error permitido de 10
piezas.
¿Qué variables se conocen?
S = 90
e = 10
Z = 2.58 (véase tabla 2)

Dado que no se conoce el tamaño poblacional y que el parámetro que se busca

estimar es un promedio, el tamaño de muestra se determina con la siguiente
fórmula:

37 de 357
Tercer semestre
Fórmula que se aplica: Sustituyendo los valores:

Así:
(𝟐𝟐. 𝟓𝟓𝟓𝟓𝟐𝟐 )(𝟗𝟗𝟗𝟗𝟐𝟐 )
𝒏𝒏 =
𝟏𝟏𝟏𝟏𝟐𝟐
𝟓𝟓𝟓𝟓, 𝟗𝟗𝟗𝟗𝟗𝟗. 𝟖𝟖𝟖𝟖
𝒏𝒏 =
𝟏𝟏𝟏𝟏𝟏𝟏
𝒁𝒁𝟐𝟐 𝑺𝑺𝟐𝟐
𝒏𝒏 = 𝒏𝒏 = 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟏𝟏𝟏𝟏 = 𝟓𝟓𝟓𝟓𝟓𝟓
𝒆𝒆𝟐𝟐

Con 540 entrevistas, se garantiza una

estimación del promedio con un error de 10
piezas y un nivel de confianza de 99%.

4. Históricamente, la proporción de vuelos demorados de una aerolínea es de 10%.

Los responsables de la aerolínea desean revisar los itinerarios de una muestra de
vuelos del último año para comprobar si se sigue observando la misma proporción
de demora. Se pide calcular el tamaño de muestra que permita estimar la proporción
de vuelos demorados en un año con un nivel de confianza de 95% y un error de 3
puntos porcentuales.

¿Qué variables se conocen?

P = 10% = 0.1
e = 3%, es decir, 0.03
Z = 1.96 (véase tabla 2)

Como se desconoce el tamaño de la población y el parámetro que se busca estimar

es una proporción, el tamaño de muestra se determina con la siguiente fórmula:

38 de 357
Tercer semestre
Fórmula que se aplica: Sustituyendo los valores:

Donde q = 1 – p = 1 – 0.1 = 0.9.

Así:

𝟏𝟏. 𝟗𝟗𝟗𝟗𝟐𝟐 (𝟎𝟎. 𝟏𝟏)(𝟎𝟎. 𝟗𝟗)

𝒏𝒏 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟐𝟐
(𝟑𝟑. 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖)(𝟎𝟎. 𝟎𝟎𝟎𝟎)
𝒁𝒁𝟐𝟐 𝒑𝒑𝒑𝒑 𝒏𝒏 =
𝒏𝒏 = 𝟐𝟐 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝒆𝒆
𝟎𝟎. 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
𝒏𝒏 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝒏𝒏 = 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟏𝟏𝟏𝟏 = 𝟑𝟑𝟑𝟑𝟑𝟑
Con 385 entrevistas, se garantiza una
estimación de P con un error de 3% y un
nivel de confianza de 95%.

Selección de una muestra con MS-Excel

MS-Excel en su módulo de análisis de datos que permite extraer una muestra de un

conjunto de datos. Para valorar su utilidad, se trabajará con el siguiente ejemplo.

Supóngase que cierta marca de ropa cuenta con

20 establecimientos y se quiere elegir al azar
cinco de ellos para realizarles una visita y
auditar que las ventas reportadas coinciden con
las que se realizan realmente.

Antes de emplear la herramienta de Excel, se sugiere numerar las 20 tiendas. A

continuación, ir al menú Datos y elegir la opción Análisis de datos. Se desplegará

39 de 357
Tercer semestre
una caja de diálogo con las opciones de análisis que se pueden ejecutar en el
módulo, elegir la opción Muestra.

Fuente: Microsoft Excel (2013).

Se desplegará otro cuadro de diálogo que se divide en tres partes: Entrada, Método
de muestreo y Opciones de salida. A continuación, se explica cada una.

40 de 357
Tercer semestre
Entrada.
En esta sección, se introduce
la región donde se encuentra
la numeración asignada a las
tiendas (región de entrada).

Método del
muestreo. En esta sección, se elige el Periódico. Se refiere al
tipo de muestreo a muestreo sistemático. En
implementar. Excel considera caso de elegir esta opción, se
dos: activa la casilla donde se
indica el periodo de selección
(K).
Aleatorio. Se refiere al
muestreo aleatorio simple. Si
se opta por este tipo de
muestreo, el paquete solicita
el tamaño de la muestra.

Para este ejemplo, se elige la opción de Aleatorio, y en la casilla de Número de

muestras se captura el número de unidades que tendrá la muestra (5).

Opciones de En esta sección, se indica dónde se va a escribir la muestra:

salida. en un rango de salida, una nueva hoja o un nuevo libro.

En este ejemplo, se elige Rango de salida y se ingresa la coordenada de la celda en

la cual se desea que comience a escribir la muestra, en este caso, la celda es E3.

Si se elige como alternativa en una nueva hoja, la muestra se escribe en una hoja
nueva del mismo archivo. En caso de optar por Libro nuevo, la muestra se escribirá
en un archivo nuevo.
Una vez completadas las secciones, oprimir Aceptar.

41 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

Excel mostrará los elementos de la muestra en donde se le indicó. En este ejemplo,

Excel seleccionó las tiendas 14, 9, 2, 17 y 10. 2

Se recomienda revisar que no existan números repetidos; de ser así, se puede

volver a escoger una nueva muestra del tamaño de los elementos que se desean
reemplazar.

2 Como se eligió un muestreo aleatorio, los resultados no necesariamente deben coincidir.

42 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

Supóngase que a los elementos de la muestra se quiere agregar el número de

artículos vendidos. Para hacerlo, se puede emplear la función Buscarv, que tiene la
siguiente estructura:
Buscarv (valor_buscado, matriz_buscar_en, indicador_columnas, [ordenado])

Valor_buscado

Es el número de la tienda
que se desea buscar.

En este ejemplo, son los valores arrojados de la muestra 14, 9, 2, 17 y 10.

43 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

Matriz_buscar_en

Este parámetro se refiere al rango donde se

buscará la información.

En este caso, las dos columnas completas de Tienda y No. de artículos vendidos. 3

3En este rango de búsqueda, la primera columna debe tener los valores buscados; de lo contrario, no trabajará
correctamente la función.

44 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

Escogidas las columnas, fijar el rango oprimiendo una vez la tecla F4. Aparecerán
signos de $ que indican que ya está fija la matriz.

Fuente: Microsoft Excel (2013).

45 de 357
Tercer semestre
Indicador de columnas Ordenados

• En este parámetro, se presenta el • Es un valor lógico. Si se escribe 0

número de columna del rango de (cero), se está indicando que se
búsqueda donde se encuentra la requieren valores de búsqueda
información que se desea agregar. coincidentes. Si se pone 1, significa
En este ejemplo, la información que que los valores de búsqueda
se quiere agregar es el número de pueden ser parecidos.
unidades vendidas que se halla en
la columna 2 del rango de
búsqueda.

Completados los parámetros de la función, oprimir la tecla Intro, y automáticamente

aparecerán las ventas de cada una de las tiendas. Por ejemplo, la tienda 14 tiene
362 artículos vendidos.

Fuente: Microsoft Excel (2013).

46 de 357
Tercer semestre
Uso de números aleatorios en MS-Excel

También se puede extraer una muestra generando números aleatorios. Un número

aleatorio es una cifra producida al azar a través de un algoritmo interno y que tiene la
misma probabilidad de ser elegido respecto a otro número. Excel permite seleccionar
números aleatorios enteros entre un rango de valores con la siguiente función:

[Link] Inferior Es el valor mínimo

(inferior,superior) aleatorio permitido

Superior Es el valor máximo

aleatorio permitido

Supóngase que se desea obtener un número aleatorio entre 1 y 10. Aplicando la

función [Link](inferior,superior), se tiene:

[Link](1,10)

En este ejemplo, al presionar la tecla Intro, se generó el número 7. 4

Regresando al ejemplo de las 20 tiendas, supóngase que se desea determinar las

tiendas que serán auditadas utilizando números aleatorios. Se procederá de la
siguiente manera.

4 Si se volviera a presionar la tecla Intro, se generaría otro número aleatorio.

47 de 357
Tercer semestre
1. Seleccionar toda el área en la
cual se generarán los números
aleatorios.

Fuente: Microsoft Excel (2013).

2. Escribir la función
[Link], utilizando un
rango de 1 a 20.

Fuente: Microsoft Excel (2013).

48 de 357
Tercer semestre
3. Oprimir al mismo tiempo las
teclas Ctrl e Intro. Se generarán
los números aleatorios.

• Los datos conservan la fórmula. Por ello se

recomienda copiar y pegar los datos como
valores (pegar – pegado especial –
valores) para que no cambien cada vez
que se realice una acción.

Fuente: Microsoft Excel (2013).

Para efectos de este ejemplo, las tiendas 6, 12, 13, 14 y 16 son las elegidas para
auditarlas (el resultado no necesariamente debe ser el mismo si se replica el
ejercicio, debido a que se eligen números aleatorios). De esta manera, se obtiene
una muestra empleando números aleatorios.

Si se quisiera generar un número aleatorio entre 0 y 1, hay que hacerlo con la

función ALEATORIO(). Esta función no cuenta con parámetros después de escribir
su nombre; solamente se abre y cierra paréntesis, y al dar Intro se genera un número
entre 0 y 1.

49 de 357
Tercer semestre
RESUMEN
Las metodologías empleadas en Estadística II tienen como insumo la información
recabada de una muestra, por ello su obtención cobra relevancia, pues la manera de
hacerlo garantizará la validez de los resultados.

Esta unidad ha presentado una introducción al muestreo. En primer lugar, se

abordaron tres conceptos que se utilizarán a lo largo del curso: parámetros,
estadísticos y estimadores.

La estadística inferencial busca determinar el valor o comportamiento de parámetros

poblacionales con el empleo de estimadores y estadísticos aplicados con
información de una muestra.

Si se requiere estimar el valor de un parámetro, se emplean estimadores; y cuando

se busca contrastar hipótesis sobre el comportamiento de algún parámetro
poblacional, se recurre a pruebas de hipótesis.

Se estudió también el tipo de muestras que puede utilizarse en un estudio, ya sea

por:

El método número de o su independencia

empleado (aleatorio muestras (únicas o (independientes o
o juicio), múltiples) relacionadas).

Además se expuso de manera breve las características de tipos de muestreo

aleatorio (aleatorio simple, sistemático, estratificado y de conglomerados) y se
explicó la manera de calcular tamaños de muestra para un muestreo aleatorio simple
𝒏𝒏
asumiendo una fracción de muestreo (𝑵𝑵) sin importancia.

50 de 357
Tercer semestre
Al final, se planteó un ejemplo de cómo utilizar Microsoft Excel (2013) para obtener
muestras tanto con el módulo de análisis de datos como con números aleatorios.

51 de 357
Tercer semestre
BIBLIOGRAFÍA

SUGERIDA

Autor Capítulo Páginas

Anderson, S. (2016) 7 265-272
Levin, R. (2010) 6 236-250
Lind, D. (2015) 8 266-274

52 de 357
Tercer semestre
UNIDAD 2

Distribuciones muestrales

53 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno identificará e interpretará los diferentes tipos de
distribuciones muestrales.

TEMARIO DETALLADO

(8 horas)
2. Distribuciones muestrales
2.1. La distribución muestral de la media
2.2. El teorema central del límite
2.3. La distribución muestral de la proporción
2.4. La distribución muestral de la varianza

54 de 357
Tercer semestre
INTRODUCCIÓN
El insumo de la estadística tanto descriptiva como inferencial es la información, por lo
que la obtención de la muestra juega un papel central en la validez de los resultados.
En Estadística II, con los valores recabados en una muestra se puede deducir el
valor de un parámetro de interés, lo que permitirá determinar el comportamiento de
una población.

Al trabajar con muestras, los parámetros presentan comportamientos que se

aproximan a distribuciones teóricas de probabilidad. Esto permite evaluar la
congruencia de los resultados y la calidad de las inferencias a realizar.

En esta unidad, se expondrán algunas distribuciones

muestrales que serán utilizadas en el resto del curso.
Primero, la distribución normal y t de Student,
asociadas a medias o proporciones; y al final de la
unidad, la 𝝌𝝌𝟐𝟐 (ji – cuadrada) y F, asociadas con
varianzas.
En la parte intermedia de la unidad, se destina una
sección para exponer uno de los resultados más
importantes de la teoría de la probabilidad: el teorema
del límite central, el cual garantiza que un promedio
muestral tiene una distribución que se aproxima a una
normal conforme aumenta el tamaño de la muestra.

55 de 357
Tercer semestre
2.1. La distribución
muestral de la media
Durante el curso de Estadística Descriptiva, en la sección dedicada a probabilidad,
se abordaron las variables aleatorias.

Variable aleatoria

Una variable aleatoria es una función que mapea los

elementos del espacio muestral al conjunto de los números
reales; es decir, una variable aleatoria representa de forma
numérica todos los resultados posibles de un experimento.

Asimismo, cada valor de la variable aleatoria tiene asociada una probabilidad de

ocurrencia, que en conjunto conforman la distribución de probabilidades o
simplemente la distribución de la variable aleatoria.

Para ejemplificar lo anterior, supóngase que se tiene el

siguiente experimento: número de águilas que se observan en
tres lanzamientos de una moneda de diez pesos. El espacio
muestral de este experimento lo conforman 23 = 8 eventos que
son AAA, AAS, ASA, SAA, ASS, SAS, SSA y SSS: A
representa un resultado de águila; y S, de sol.

El número de águilas que pueden aparecer en tres

lanzamientos son 0, 1, 2 o 3, por lo que la variable aleatoria X
asociada al experimento toma estos valores. La probabilidad
de ocurrencia de cada valor de la variable aleatoria es 1/8 para
X = 0 y X = 3; 3/8 para X = 1 y X = 2. La distribución de X se
muestra en la siguiente figura.

56 de 357
Tercer semestre
Figura 1. Distribución de probabilidades de la variable aleatoria asociada al
número de águilas observadas en tres lanzamientos de una moneda de diez
pesos

Probabilidad P(x); 1; 0,38 P(x); 2; 0,38

P(x); 0; 0,13 P(x); 3; 0,13

Número de águilas

Fuente: elaboración propia.

Es habitual que de una muestra aleatoria de tamaño n se calcule el promedio con los
valores extraídos, donde el resultado dependerá de la muestra:

el promedio muestral es una variable aleatoria que

cuenta con una distribución de probabilidades.

Supóngase que al área de planeación de cierta organización la conforman cinco

empleados, los cuales cuentan con la siguiente antigüedad en el trabajo.

Tabla 1. Antigüedad de los empleados del área de planeación

en la organización
Empleado Antigüedad en años
1 7
2 3
3 4
4 5
5 2

57 de 357
Tercer semestre
Si se extrae una muestra de tres empleados (sin reemplazo) y se calcula su
𝟓𝟓
promedio de antigüedad, hay � � = 𝟏𝟏𝟏𝟏 posibles resultados, los cuales se detallan en
𝟑𝟑
la tabla 2.

Tabla 2. Valores posibles del promedio de antigüedad de una muestra de dos

empleados del área de planeación

Muestra Empleados en la Promedio de

muestra antigüedad
1 1,2,3 𝟕𝟕 + 𝟑𝟑 + 𝟒𝟒
= 𝟒𝟒. 𝟕𝟕
𝟑𝟑
2 1,2,4 𝟕𝟕 + 𝟑𝟑 + 𝟓𝟓
= 𝟓𝟓. 𝟎𝟎
𝟑𝟑
3 1,2,5 𝟕𝟕 + 𝟑𝟑 + 𝟐𝟐
= 𝟒𝟒. 𝟎𝟎
𝟑𝟑
4 1,3,4 𝟕𝟕 + 𝟒𝟒 + 𝟓𝟓
= 𝟓𝟓. 𝟑𝟑
𝟑𝟑
5 1,3,5 𝟕𝟕 + 𝟒𝟒 + 𝟐𝟐
= 𝟒𝟒. 𝟑𝟑
𝟑𝟑
6 1,4,5 𝟕𝟕 + 𝟓𝟓 + 𝟐𝟐
= 𝟒𝟒. 𝟕𝟕
𝟑𝟑
7 2,3,4 𝟑𝟑 + 𝟒𝟒 + 𝟓𝟓
= 𝟒𝟒. 𝟎𝟎
𝟑𝟑
8 2,3,5 𝟑𝟑 + 𝟒𝟒 + 𝟐𝟐
= 𝟑𝟑. 𝟎𝟎
𝟑𝟑
9 2,4,5 𝟑𝟑 + 𝟓𝟓 + 𝟐𝟐
= 𝟑𝟑. 𝟑𝟑
𝟑𝟑
10 3,4,5 𝟒𝟒 + 𝟓𝟓 + 𝟐𝟐
= 𝟑𝟑. 𝟕𝟕
𝟑𝟑

En cuanto a la distribución de frecuencias, se muestra en la figura 2.

58 de 357
Tercer semestre
Figura 2. Distribución de frecuencias de los promedios de antigüedad de una
muestra de tres empleados del área de planeación

Fuente: elaboración propia.

En la figura anterior, se muestra la distribución de frecuencias de los posibles

promedios. Obsérvese que es más factible tener un resultado entre 3.5 y 4.0 o entre
4.5 y 5.0.

La distribución de todos los promedios posibles de una muestra de tamaño n

se conoce como distribución muestral de la media.

En el ejemplo anterior, la distribución muestral de la media es bimodal, lo que se

debe a la poca información y dispersión de datos. ¿Si la población hubiera sido de
mayor tamaño o la muestra hubiera permitido repeticiones, la distribución se habría
conservado? La respuesta es no.

59 de 357
Tercer semestre
En la siguiente sección, se analizará un resultado que garantiza que la distribución
muestral de la media se aproxima a una distribución normal conforme se incrementa
el tamaño de la muestra. Por lo pronto, solamente se hará mención de este
resultado.

Distribución muestral de la media

Supóngase que se tiene una población de tamaño N con media μ y varianza σ2 de la

que se extrae una muestra de tamaño n. La distribución de la media muestral (𝒙𝒙
�) se
aproxima a una normal con media μ y varianza σ2/n (figura3) en la medida que se
incrementa el tamaño de la muestra (n). 5

Figura 3. Distribución muestral de la media

Fuente: elaboración propia.

Conociendo lo anterior, puede estandarizarse esta distribución y utilizar el cálculo de

una probabilidad para medir la calidad de la muestra, lo cual se ejemplifica a
continuación.

5Cuando 𝑵𝑵−𝒏𝒏
la fracción 𝑵𝑵𝒏𝒏 > 𝟎𝟎. 𝟎𝟎𝟎𝟎 se multiplica por el factor de ajuste �
𝑵𝑵−𝟏𝟏

60 de 357
Tercer semestre
Supóngase que una organización realizó 8620
movimientos bancarios durante el último ejercicio
fiscal, con un importe promedio de $67,213.49 y
una desviación de $5,315.22. Se contrató un
despacho de auditores para validar estas
operaciones. Ante la premura con la que se requieren
los resultados, se determinó auditar una muestra de 150 movimientos. Se considera
que los resultados son satisfactorios si el promedio muestral difiere del real en $900.
Entonces, ¿cuál es la probabilidad de que el promedio muestral difiera del real $900?

Conforme a lo expuesto, la distribución muestral del promedio se aproxima a una

$𝟓𝟓,𝟑𝟑𝟑𝟑𝟑𝟑.𝟐𝟐𝟐𝟐
distribución normal con media de $67,213.49 y una desviación de . Se busca
√𝟏𝟏𝟏𝟏𝟏𝟏

la probabilidad de que el promedio muestral se encuentre entre $67,213.49 ± $900.

En la figura 4 se muestra la región de interés.

Figura 4. Distribución del promedio muestral de

los movimientos bancarios
8e-04
6e-04
Probabilidad

4e-04
2e-04
0e+00

65000 66000 67000 68000 69000 70000

Importe promedio

Fuente: elaboración propia.

61 de 357
Tercer semestre
La figura anterior presenta la distribución de todos los promedios obtenidos con
muestras de 150 movimientos bancarios. La línea al centro de la distribución es el
promedio real y las otras dos líneas verticales alrededor del promedio real limitan la
región de los resultados considerados satisfactorios ($66,313.49 y $68,113.49).

Para calcular la probabilidad, se procede a estandarizar los valores para trabajar con
una distribución normal con media cero y desviación estándar uno (Z).

De esta manera:

𝑷𝑷(𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟒𝟒𝟒𝟒 < 𝑿𝑿 < 𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟒𝟒𝟒𝟒)

𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟒𝟒𝟒𝟒 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 𝑿𝑿 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟒𝟒𝟒𝟒 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒
𝑷𝑷( 𝟓𝟓,𝟑𝟑𝟑𝟑𝟑𝟑.𝟐𝟐𝟐𝟐
< 𝟓𝟓,𝟑𝟑𝟑𝟑𝟑𝟑.𝟐𝟐𝟐𝟐
< 𝟓𝟓,𝟑𝟑𝟑𝟑𝟑𝟑.𝟐𝟐𝟐𝟐
)
√𝟏𝟏𝟏𝟏𝟏𝟏 √𝟏𝟏𝟏𝟏𝟏𝟏 √𝟏𝟏𝟏𝟏𝟏𝟏

𝑷𝑷(−𝟐𝟐. 𝟎𝟎𝟎𝟎𝟎𝟎 < 𝒁𝒁 < 𝟐𝟐. 𝟎𝟎𝟎𝟎𝟎𝟎)

Para calcular esta probabilidad, se utilizará la probabilidad acumulada hasta 2.073 y

se restará la acumulada a –2.073. Se aplicará la siguiente función de Excel:
[Link](z), donde z es el cuantil de la distribución normal estándar
en donde se desea calcular la probabilidad acumulada.

Entonces, la probabilidad buscada se calcula así:

[Link](2.073) – [Link](–2.073)
= 0.9809 – 0.0191 = 0.9618

Este resultado indica que la probabilidad de que la muestra proporcione un resultado

satisfactorio es de 0.9618: los resultados de la muestra son confiables.

62 de 357
Tercer semestre
Observación

Al trabajar una distribución normal estandarizada en Excel, se pueden utilizar las

siguientes funciones:

• Devuelve la probabilidad acumulada al

punto z en una distribución normal
[Link](z) estándar.

• Devuelve el cuantil z donde se

[Link] acumula la probabilidad indicada.
(probabilidad)

Distribución muestral de la media cuando se desconoce σ2

Aunque resulta sencillo determinar la distribución muestral de la media cuando se

tiene la varianza o la desviación estándar poblacional, no siempre es posible
conocerla. Al presentarse esta situación, se utilizan los valores de la muestra para
estimarla de la siguiente manera:

∑𝒏𝒏𝒊𝒊=𝟏𝟏(𝒙𝒙𝒊𝒊 − 𝒙𝒙
�)𝟐𝟐
𝒔𝒔𝟐𝟐 =
𝒏𝒏 − 𝟏𝟏
•
Donde:
𝟐𝟐
𝒔𝒔 = varianza muestral
𝒙𝒙𝒊𝒊 = valor del i-ésimo elemento de la muestra
� = promedio muestral
𝒙𝒙
N = tamaño de la muestra

Y la distribución muestral de la media no es una normal, sino una t de Student con

n – 1 grados de libertad.

63 de 357
Tercer semestre
La distribución t de Student es La distribución t de Student
también una distribución depende de un parámetro
acampanada alrededor de cero. A conocido como grados de
diferencia de una distribución libertad. La distribución t de
normal estándar (Z), sus Student es única para cada grado
extremos tardan en tomar una de libertad y conforme aumenta
forma asintótica, por lo que se se aproxima más a una
dice que es “pesada en las colas”. distribución normal estándar.

Los grados de libertad se refieren al número de valores independientes en el cálculo

de la varianza muestral. Como se sabe que la suma de las desviaciones alrededor de
la media es cero, se necesita conocer n – 1 valores para determinar el restante.

Con tamaños de muestra grandes (n>30), la distribución t de Student se comporta

similar a una normal estandarizada, debido a lo cual se sugiere su uso en muestras
de tamaño menor a 30.

Función de densidad de la distribución t de Student:

(𝒏𝒏 + 𝟏𝟏)
𝟏𝟏 𝚪𝚪 𝟐𝟐 𝒙𝒙𝟐𝟐 (−𝒏𝒏+𝟏𝟏)
𝒕𝒕𝒏𝒏 = � 𝒏𝒏 � (𝟏𝟏 + ) 𝟐𝟐
𝒏𝒏𝒏𝒏 𝚪𝚪 𝟐𝟐 𝒏𝒏

Para 𝒙𝒙 ∈ (−∞, ∞)

•
Donde:

𝒕𝒕𝒏𝒏 = valor t con n grados de libertad

𝜞𝜞 = función gamma
N = grados de libertad

64 de 357
Tercer semestre
Cuando se trabaja con una distribución t en Excel, se utilizan las siguientes
funciones:

Distr.t (x, grados de libertad, colas).

Distr.t (probabilidad, grados de
Calcula la probabilidad libertad).
acumulada a partir del cuantil
X considerando una o dos Calcula el cuantil a partir del
colas en una distribución t con cual se acumula la
los grados de libertad. probabilidad de interés de una
distribución t de dos colas, con
los grados de libertad
establecidos.

Para ilustrar el uso de la distribución t de Student, supóngase que en el ejemplo

anterior se desconoce el valor de la varianza poblacional, además el auditor decidió
utilizar una muestra de cinco movimientos con los siguientes valores: $65,128,
$69,310, $68,501, $66,920 y $67,821.

El primer paso es calcular el promedio muestral:

𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑 + 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓 + 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗𝟗𝟗 + 𝟔𝟔𝟔𝟔, 𝟖𝟖𝟖𝟖𝟖𝟖
�=
𝒙𝒙 = 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓
𝟓𝟓

A continuación, se calcula la varianza muestral:

𝒔𝒔𝟐𝟐
(𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐 + (𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐 + (𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓) + (𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗𝟗𝟗 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐 + (𝟔𝟔𝟔𝟔, 𝟖𝟖𝟖𝟖𝟖𝟖 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐
=
𝟓𝟓 − 𝟏𝟏
= 2,584,361.5

Por tanto, la desviación muestral es:

�𝟐𝟐, 𝟓𝟓𝟓𝟓𝟓𝟓, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟓𝟓 = 𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔. 𝟓𝟓𝟓𝟓

65 de 357
Tercer semestre
A continuación, se estandarizan los datos:

𝑷𝑷(𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟒𝟒𝟒𝟒 < 𝑿𝑿 < 𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟒𝟒𝟒𝟒)

𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟒𝟒𝟒𝟒 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 𝑿𝑿 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟒𝟒𝟒𝟒 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒
𝑷𝑷( 𝟏𝟏,𝟔𝟔𝟔𝟔𝟔𝟔.𝟓𝟓𝟓𝟓
< 𝟏𝟏,𝟔𝟔𝟔𝟔𝟔𝟔.𝟓𝟓𝟓𝟓
< 𝟏𝟏,𝟔𝟔𝟔𝟔𝟔𝟔.𝟓𝟓𝟓𝟓
)
√𝟓𝟓 √𝟓𝟓 √𝟓𝟓

𝑷𝑷(−𝟏𝟏. 𝟐𝟐𝟐𝟐𝟐𝟐 < 𝒕𝒕𝟒𝟒 < 𝟏𝟏. 𝟐𝟐𝟐𝟐𝟐𝟐)

Para calcular esta probabilidad, se utilizará la probabilidad contenida entre –1.252 y

1.252, con la función de Excel Distr.t(x,grados de libertad, colas), explicada
anteriormente.

Entonces, la probabilidad buscada se calcula así:

(1-Distr.t(1.252,4, 2)) = 0.7212

Este resultado indica que la probabilidad de que la muestra proporcione un resultado

satisfactorio es de 0.7212, por lo que es recomendable incrementar el tamaño de la
muestra.

Observación:
La función Distr.t(1.252,4, 2)

66 de 357
Tercer semestre
Figura 5. Segmentación de la distribución t con cuatro
grados de libertad considerada en el problema

-1.252 1.252
t
Fuente: elaboración propia.

Calcula la probabilidad acumulada en las colas, es decir, la suma del área

acumulada de menos infinito a –1.252, y desde 1.252 a infinito. Como la región de
interés se encuentra entre –1.252 y 1.252, se utiliza el complemento.

67 de 357
Tercer semestre
2.2. El teorema central del límite
En la sección anterior, se mencionó que la distribución muestral de una media es una
normal, pero ¿cuál es el sustento teórico de esta afirmación? En la teoría de
probabilidad existen dos resultados muy importantes: la ley de los grandes números
y el teorema del límite central, este último garantiza que el promedio de una muestra
siga una distribución normal. A continuación, se expone este teorema.

Teorema del límite

central

El teorema del límite central establece que, si se

cuenta con un conjunto de variables aleatorias
X1,X2,…,Xn, las cuales son independientes e
idénticamente distribuidas con valor esperado

E(X1) = E(X2) = …= E(Xn) = μ

y varianza
V(X1) = V(X2) = …= V(Xn) = σ2

entonces, a medida que se incrementa el número de variables (n),

68 de 357
Tercer semestre
𝝈𝝈𝟐𝟐
� 𝒏𝒏 ~𝑵𝑵(𝝁𝝁,
𝑿𝑿 )
𝒏𝒏

•
Donde:

� 𝒏𝒏 = Promedio de n variables
𝑿𝑿
𝝈𝝈𝟐𝟐
𝑵𝑵(𝝁𝝁, 𝒏𝒏 ) = Distribución normal con media μ y varianza σ2/ n

El resultado indica que la distribución del promedio del conjunto de variables se

aproxima a una normal con media μ y varianza σ2conforme el tamaño de la muestra
se incrementa.

Este resultado es aplicable al muestreo, donde los elementos de la muestra pueden

considerarse como variables aleatorias independientes con la misma distribución de
la población de la que proceden con media μ y varianza σ2. Así, el promedio muestral
conforme el tamaño de la muestra se incrementa se aproxima a una distribución
normal con media μ y varianza σ2/n.

Para entender mejor este resultado, supóngase que de una

población con media μ y varianza σ2 se extraen N muestras
aleatorias de tamaño n y con cada una se calcula el promedio.
Si se construye un histograma con los N promedios, tendría una
forma acampanada alrededor del punto μ y su varianza se
aproxima a σ2/ n.

Para ejemplificar lo anterior, supóngase que se desea conocer el comportamiento del

promedio del lanzamiento de un dado. Asumiendo que el dado no se encuentra
cargado en ningún número, cualquier valor tiene la misma probabilidad de ser
elegido (1/6), por lo que el valor esperado (μ) es el siguiente:

69 de 357
Tercer semestre
𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏
𝝁𝝁 = 𝑬𝑬(𝑿𝑿) = 𝟏𝟏 ∙ + 𝟐𝟐 ∙ + 𝟑𝟑 ∙ + 𝟒𝟒 ∙ + 𝟓𝟓 ∙ + 𝟔𝟔 ∙ = 𝟑𝟑. 𝟓𝟓
𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔

Y la varianza (σ2):
𝝈𝝈𝟐𝟐 = 𝑬𝑬(𝑿𝑿𝟐𝟐 ) − 𝑬𝑬𝟐𝟐 (𝑿𝑿)

Donde:
𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏
𝑬𝑬(𝑿𝑿𝟐𝟐 ) = 𝟏𝟏𝟐𝟐 ∙ + 𝟐𝟐𝟐𝟐 ∙ + 𝟑𝟑𝟐𝟐 ∙ + 𝟒𝟒𝟐𝟐 ∙ + 𝟓𝟓𝟐𝟐 ∙ + 𝟔𝟔𝟐𝟐 ∙ = 𝟏𝟏𝟏𝟏. 𝟐𝟐
𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔

Así:
𝝈𝝈𝟐𝟐 = 𝑬𝑬(𝑿𝑿𝟐𝟐 ) − 𝑬𝑬𝟐𝟐 (𝑿𝑿) = 𝟏𝟏𝟏𝟏. 𝟐𝟐 − 𝟑𝟑. 𝟓𝟓𝟐𝟐 = 𝟐𝟐. 𝟗𝟗

Supóngase que se lanza el dado dos veces (n = 2) y se calcula el promedio de los

dos resultados y se repite este experimento 100 ocasiones (N = 100). Se obtienen los
resultados que se muestran en la tabla siguiente.

70 de 357
Tercer semestre
Tabla 3. Resultados de dos lanzamientos de un dado en 100 ocasiones
Lanzamiento Lanzamiento Lanzamiento Lanzamiento
Muestra 1 2 Promedio Muestra 1 2 Promedio Muestra 1 2 Promedio Muestra 1 2 Promedio
1 2 4 3 26 5 6 5.5 51 4 3 3.5 76 5 4 4.5
2 6 3 4.5 27 6 3 4.5 52 6 5 5.5 77 2 6 4
3 6 6 6 28 6 5 5.5 53 3 1 2 78 4 2 3
4 6 3 4.5 29 5 1 3 54 3 6 4.5 79 3 5 4
5 5 2 3.5 30 5 6 5.5 55 5 4 4.5 80 1 6 3.5
6 2 4 3 31 2 1 1.5 56 2 4 3 81 6 2 4
7 5 2 3.5 32 2 2 2 57 4 6 5 82 4 3 3.5
8 4 2 3 33 1 1 1 58 5 2 3.5 83 5 6 5.5
9 3 6 4.5 34 5 5 5 59 2 3 2.5 84 3 3 3
10 2 4 3 35 4 3 3.5 60 4 1 2.5 85 1 6 3.5
11 1 3 2 36 4 4 4 61 6 4 5 86 4 2 3
12 2 6 4 37 5 1 3 62 2 2 2 87 4 5 4.5
13 3 5 4 38 5 1 3 63 3 3 3 88 6 5 5.5
14 1 4 2.5 39 3 4 3.5 64 2 4 3 89 5 1 3
15 1 6 3.5 40 2 5 3.5 65 5 3 4 90 6 4 5
16 1 5 3 41 6 1 3.5 66 1 3 2 91 3 1 2
17 6 2 4 42 4 5 4.5 67 2 6 4 92 4 5 4.5
18 3 6 4.5 43 4 4 4 68 4 2 3 93 2 3 2.5
19 4 3 3.5 44 2 5 3.5 69 3 5 4 94 6 6 6
20 3 2 2.5 45 3 6 4.5 70 1 2 1.5 95 6 3 4.5
21 5 6 5.5 46 1 1 1 71 5 2 3.5 96 5 1 3
22 3 4 3.5 47 4 3 3.5 72 4 3 3.5 97 5 2 3.5
23 4 4 4 48 6 6 6 73 4 5 4.5 98 5 3 4
24 4 5 4.5 49 4 3 3.5 74 4 1 2.5 99 1 3 2
25 3 1 2 50 1 3 2 75 2 6 4 100 5 5 5
Promedio: 3.6
Varianza: 1.3

71 de 357
Segundo semestre
La tabla anterior muestra los resultados de las 100 muestras de dos lanzamientos y
sus respectivos promedios. Obsérvese que el promedio de los promedios es 3.6
(cercano a 3.5, el valor esperado) y la varianza de los promedios (1.3), que se acerca
a 2.9/2 = 1.45. La siguiente figura muestra el histograma de la distribución del
promedio de dos lanzamientos junto con la distribución teórica a la que debería
aproximarse.

Figura 6. Distribución del promedio de dos lanzamientos de un dado

Fuente: elaboración propia con empleo del paquete estadístico R. 6

Se debe tomar en cuenta que el paquete estadístico donde se graficó la figura

anterior muestra la frecuencia relativa modificada por un factor calculado por 10 entre
el número de intervalos.

6 R Core Team (2015). R: A language and environment for statistical computing. R Foundation for

Statistical Computing, Vienna, Austria. URL [Link]

72 de 357
Segundo semestre
Ahora, supóngase que en vez de realizar dos lanzamientos se hicieran cinco, se
calculara el promedio y se repitiera este experimento 100 ocasiones. En la siguiente
tabla, se muestran los resultados.

73 de 357
Tercer semestre
Tabla 4. Resultados de cinco lanzamientos de un dado en 100 ocasiones
Lanzamiento Lanzamiento
Muestra 1 2 3 4 5 Promedio Muestra 1 2 3 4 5 Promedio
1 3 3 5 2 3 3.2 51 1 4 6 2 1 2.8
2 4 4 3 2 5 3.6 52 5 5 1 1 2 2.8
3 1 1 5 2 6 3 53 4 3 5 1 2 3
4 1 5 6 6 3 4.2 54 5 4 4 1 6 4
5 3 2 3 2 3 2.6 55 6 1 4 1 4 3.2
6 5 4 4 5 5 4.6 56 5 3 5 2 2 3.4
7 3 6 5 1 2 3.4 57 2 6 5 2 6 4.2
8 5 6 3 4 6 4.8 58 3 1 6 3 3 3.2
9 3 3 2 2 5 3 59 4 4 3 5 6 4.4
10 3 3 3 3 4 3.2 60 2 1 4 2 3 2.4
11 3 4 5 2 1 3 61 1 6 4 1 3 3
12 1 5 4 4 3 3.4 62 3 6 6 4 4 4.6
13 3 2 2 5 3 3 63 5 1 1 2 3 2.4
14 2 5 6 1 1 3 64 1 3 2 1 5 2.4
15 1 6 1 1 5 2.8 65 6 1 6 1 4 3.6
16 2 3 3 2 5 3 66 5 6 1 5 1 3.6
17 2 1 3 1 6 2.6 67 2 4 3 5 5 3.8
18 6 5 2 6 3 4.4 68 3 4 2 6 4 3.8
19 1 5 5 3 5 3.8 69 3 1 6 3 3 3.2
20 3 3 1 4 2 2.6 70 4 4 6 6 4 4.8
21 4 6 4 5 1 4 71 2 4 4 2 1 2.6
22 5 1 4 4 1 3 72 6 5 6 3 4 4.8
23 6 3 5 4 1 3.8 73 2 6 5 6 6 5
24 5 1 5 4 6 4.2 74 5 3 2 2 3 3
25 2 4 5 3 1 3 75 1 5 5 2 3 3.2
26 1 5 6 5 6 4.6 76 6 2 6 4 5 4.6
27 1 3 4 3 5 3.2 77 5 1 6 3 3 3.6
28 6 5 3 6 2 4.4 78 5 5 1 4 1 3.2
29 4 6 4 5 4 4.6 79 5 5 2 1 5 3.6
30 5 6 2 4 6 4.6 80 3 3 1 2 3 2.4
31 6 6 2 3 2 3.8 81 2 5 2 5 6 4
32 4 6 5 4 2 4.2 82 2 4 6 5 6 4.6
33 2 3 1 4 6 3.2 83 1 6 3 1 4 3
34 4 3 2 5 2 3.2 84 6 2 6 2 5 4.2
35 2 2 5 1 3 2.6 85 1 1 2 6 1 2.2
36 2 6 5 1 1 3 86 2 5 5 1 1 2.8
37 4 4 2 4 4 3.6 87 3 2 5 2 1 2.6
38 6 1 1 3 2 2.6 88 2 3 2 3 6 3.2
39 4 4 6 2 3 3.8 89 3 1 1 6 1 2.4
40 5 1 1 4 5 3.2 90 4 6 4 3 6 4.6
41 1 3 2 4 1 2.2 91 1 1 2 2 5 2.2
42 6 1 2 5 2 3.2 92 3 6 6 1 6 4.4
43 6 3 3 4 6 4.4 93 5 1 1 5 6 3.6
44 6 5 1 4 2 3.6 94 4 1 1 6 6 3.6
45 4 4 6 6 5 5 95 1 1 3 5 5 3
46 3 5 1 2 4 3 96 6 5 4 1 4 4
47 5 3 6 2 6 4.4 97 6 3 5 4 5 4.6
48 6 4 4 4 2 4 98 3 3 6 6 4 4.4
49 4 2 6 6 2 4 99 5 3 2 6 1 3.4
50 3 5 6 6 4 4.8 100 1 4 4 6 3 3.6
Promedio: 3.5
Varianza: 0.6

74 de 357
Tercer semestre
En el caso de 100 muestras de tamaño cinco, el promedio de los promedios es 3.5,
el valor esperado del lanzamiento de un dado; y la varianza de los promedios es 0.6,
la cual es casi 2.9/5 = 0.58. La siguiente figura es la gráfica de la distribución de los
promedios de las 100 muestras con la distribución teórica a la que debe aproximarse.

Figura 7. Distribución del promedio de cinco lanzamientos de un dado

Fuente: elaboración propia con empleo del paquete estadístico R.

Obsérvese que la dispersión va disminuyendo: ahora el promedio se sitúa entre 2 y

5, y ya no incluye los valores extremos.

Conforme se incrementa el número de lanzamientos, la distribución de frecuencias

se concentra cada vez más alrededor de 3.5 y se asemeja más a una distribución
normal con media 3.5 y varianza 2.9/n. En la siguiente figura, se expone la
distribución de frecuencias de 100 muestras de tamaño de 10, 30, 50 y 100
lanzamientos.

75 de 357
Tercer semestre
Figura 8. Distribución del promedio de cien muestras de
10, 30, 50 y 100 lanzamientos de un dado

Fuente: elaboración propia con empleo del paquete estadístico R.

De esta manera, se ha expuesto el teorema del límite central.

76 de 357
Tercer semestre
2.3. La distribución muestral
de la proporción
Con frecuencia, la proporción poblacional P es uno de los parámetros que interesa
conocer al extraer una muestra. Para hacerlo, se emplea la proporción muestral p,
cuyo cálculo se realiza de la siguiente manera:

∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊
𝒑𝒑 =
𝒏𝒏

• Donde:

𝒙𝒙𝒊𝒊 = valor del i-ésimo elemento de la muestra

n = tamaño de la muestra

La proporción es un caso del promedio donde los valores que toman los elementos
de la muestra son 1 si cumple con el criterio de interés, y 0 en caso contrario. De
esta manera, cada elemento tiene una distribución Bernoulli con parámetro P y
varianza P⋅(1 – P) debido a que los elementos de la muestra son independientes:

𝒏𝒏 𝒏𝒏 𝒏𝒏

𝑬𝑬(� 𝒙𝒙𝒊𝒊 ) = � 𝑬𝑬(𝒙𝒙𝒊𝒊 ) = � 𝑷𝑷 = 𝒏𝒏ˑ𝑷𝑷

𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏

y
𝒏𝒏 𝒏𝒏 𝒏𝒏

𝑽𝑽(� 𝒙𝒙𝒊𝒊 ) = � 𝑽𝑽(𝒙𝒙𝒊𝒊 ) = � 𝑷𝑷ˑ(𝟏𝟏 − 𝑷𝑷) = 𝒏𝒏ˑ𝑷𝑷ˑ(𝟏𝟏 − 𝑷𝑷)

𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏

Que es el valor esperado y la varianza de una distribución binomial.

77 de 357
Tercer semestre
Con lo anterior:

𝒏𝒏 𝒏𝒏 𝒏𝒏
∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏
𝑬𝑬(𝒑𝒑) = 𝑬𝑬 � � = ∙ 𝑬𝑬(� 𝒙𝒙𝒊𝒊 ) = ∙ � 𝑬𝑬(𝒙𝒙𝒊𝒊 ) = ∙ � 𝑷𝑷 = ∙ 𝒏𝒏ˑ𝑷𝑷 = 𝑷𝑷
𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏

Y
𝒏𝒏 𝒏𝒏 𝒏𝒏
∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝑷𝑷 ∙ (𝟏𝟏 − 𝑷𝑷)
𝑽𝑽(𝒑𝒑) = 𝑽𝑽 � � = 𝟐𝟐 ∙ 𝑽𝑽(� 𝒙𝒙𝒊𝒊 ) = 𝟐𝟐 ∙ � 𝑽𝑽(𝒙𝒙𝒊𝒊 ) = 𝟐𝟐 ∙ � 𝑷𝑷 ∙ (𝟏𝟏 − 𝑷𝑷) = 𝟐𝟐 ∙ 𝒏𝒏ˑ𝑷𝑷 ∙ (𝟏𝟏 − 𝑷𝑷) =
𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏

Según la estadística descriptiva, si una variable X tiene una distribución binomial con
parámetros n y p, entonces puede aproximarse a una normal con media n⋅p y
varianza n⋅p⋅(1 – p) si 𝒏𝒏𝒏𝒏 ≥ 𝟓𝟓 y 𝒏𝒏(𝟏𝟏 − 𝒑𝒑) ≥ 𝟓𝟓.

Otro resultado importante, propiedad de la distribución normal, es que, si una

variable X se distribuye como una normal con media μ y varianza σ2 y si se define la
variable Y como Y = a⋅X + b donde a y b son constantes, entonces Y tiene una
distribución normal con media a⋅μ + b y varianza a2⋅σ2.

Aplicando los resultados anteriores, para n considerablemente grande la distribución

de ∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊 se aproxima a una normal con media n⋅P y varianza n⋅P⋅(1 – P).
𝟏𝟏
Si se define la siguiente variable Y = a⋅∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊 + b, donde 𝒂𝒂 = 𝒏𝒏 y b=0, entonces:

∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊
𝒀𝒀 = + 𝟎𝟎 = 𝒑𝒑
𝒏𝒏

𝟏𝟏
Tiene una distribución normal con media 𝒏𝒏 ∙ 𝒏𝒏ˑ𝑷𝑷 = 𝑷𝑷
𝟏𝟏 𝑷𝑷∙(𝟏𝟏−𝑷𝑷)
y varianza 𝒏𝒏𝟐𝟐 ∙ 𝒏𝒏ˑ𝑷𝑷 ∙ (𝟏𝟏 − 𝑷𝑷) = 𝒏𝒏

78 de 357
Tercer semestre
Observaciones

𝑛𝑛
1. Cuando la proporción poblacional P es conocida y la población es finita con𝑁𝑁 ≤

0.05 , la desviación de la proporción muestral será así:

𝑃𝑃(1 − 𝑃𝑃)
𝜎𝜎𝑝𝑝 = �
𝑛𝑛
𝑛𝑛
Pero si𝑁𝑁 > 0.05, la desviación de la proporción muestral será ajustada de la

siguiente manera:

𝑃𝑃(1 − 𝑃𝑃) 𝑁𝑁 − 𝑛𝑛
𝜎𝜎𝑝𝑝 = � ∙�
𝑛𝑛 𝑁𝑁 − 1

Donde N es el tamaño de la población y n el tamaño de muestra.

2. Cuando se desconoce la proporción poblacional P, se utiliza la proporción
𝑛𝑛
muestral. Si la población es finita con 𝑁𝑁
≤ 0.05 , la desviación de la proporción

muestral será así:

𝑝𝑝(1 − 𝑝𝑝)
𝜎𝜎𝑝𝑝 = �
𝑛𝑛 − 1
𝑛𝑛
Pero si𝑁𝑁 > 0.05, la desviación de la proporción muestral será ajustada de la

siguiente manera:

𝑝𝑝(1 − 𝑝𝑝) 𝑁𝑁 − 𝑛𝑛
𝜎𝜎𝑝𝑝 = � ∙�
𝑛𝑛 − 1 𝑁𝑁 − 1

Donde N es el tamaño de la población y n el tamaño de muestra.

Para mostrar la utilidad de la distribución muestral de la proporción, se expone el

siguiente ejemplo.

79 de 357
Tercer semestre
De acuerdo con una encuesta realizada a una población de 2919 egresados de
licenciatura de la Facultad de Contaduría y Administración, el 80.4% considera
excelentes o buenas las técnicas de enseñanza que utilizaron sus profesores durante
la carrera 7. Con la intención de conocer a mayor profundidad la metodología de
enseñanza de sus docentes, la Dirección de la Facultad decide contactar a una
muestra aleatoria de 100 egresados que contestaron la encuesta. ¿Cuál es la
probabilidad de que el porcentaje de egresados en la muestra que juzgue excelentes
o buenas las técnicas de enseñanza de sus profesores de licenciatura sea mayor a
90%?

Previo a establecer la distribución muestral de la

proporción, se identifica que en este problema se está
dando la proporción poblacional (80.4%) y el tamaño de
la población (2,919) y de la muestra (100). Con esta
información se puede calcular la fracción de muestreo
𝒏𝒏 𝟏𝟏𝟏𝟏𝟏𝟏
(𝑵𝑵), la cual es 𝟐𝟐,𝟗𝟗𝟗𝟗𝟗𝟗 = 𝟎𝟎. 𝟎𝟎𝟎𝟎. En este caso, como es menor

a 0.05, no es necesario realizar algún ajuste al cálculo de la desviación estándar de

la proporción muestral.
De esta manera:

𝑬𝑬(𝒑𝒑) = 𝑷𝑷 = 𝟎𝟎. 𝟖𝟖𝟖𝟖𝟖𝟖

𝑷𝑷(𝟏𝟏 − 𝑷𝑷) 𝟎𝟎. 𝟖𝟖𝟖𝟖𝟖𝟖(𝟏𝟏 − 𝟎𝟎. 𝟖𝟖𝟖𝟖𝟖𝟖)

𝝈𝝈𝒑𝒑 = � =� = 𝟎𝟎. 𝟎𝟎𝟎𝟎
𝒏𝒏 𝟏𝟏𝟏𝟏𝟏𝟏

7UNAM. Dirección General de Planeación. Perfiles de alumnos egresados del nivel licenciatura de la
UNAM 2012-2013, p. 71.
[Link] Consultado
el 13 de julio de 2015.

80 de 357
Tercer semestre
Ahora, como n⋅P = (100)⋅(0.804) = 80.4 y n⋅(1 – P) = (100)⋅(1 – 0.804) = 19.6 son
mayores a 5, entonces la distribución muestral de la proporción se aproxima a una
normal con media 0.804 y desviación 0.04. (Véase figura 9).

Figura 9. Distribución muestral de una proporción calculada

con muestras de cien elementos

Fuente: elaboración propia con empleo del paquete estadístico R.

La figura anterior enseña la distribución muestral de la proporción para tamaños de

muestra de 100 elementos. La región que se pide calcular se encuentra a la derecha
de la línea punteada.

𝟎𝟎. 𝟗𝟗 − 𝟎𝟎. 𝟖𝟖𝟖𝟖𝟖𝟖

𝑷𝑷(𝑿𝑿 > 𝟎𝟎. 𝟗𝟗) = 𝟏𝟏 − 𝑷𝑷(𝑿𝑿 ≤ 𝟎𝟎. 𝟗𝟗) = 𝟏𝟏 − 𝑷𝑷 �𝒁𝒁 ≤ � = 𝟏𝟏 − 𝑷𝑷(𝒁𝒁 ≤ 𝟐𝟐. 𝟒𝟒)
𝟎𝟎. 𝟎𝟎𝟎𝟎

Utilizando la función de Excel [Link](z), se obtiene:

𝟏𝟏 − 𝑷𝑷(𝒁𝒁 ≤ 𝟐𝟐. 𝟒𝟒) = 𝟏𝟏 − 𝟎𝟎. 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗 = 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎

Este resultado indica que es prácticamente imposible tener en la muestra un

porcentaje mayor a 90% de egresados que consideren excelentes o buenas las
técnicas de enseñanza de sus profesores de licenciatura.

81 de 357
Tercer semestre
2.4. La distribución muestral
de la varianza
En las secciones anteriores, se estudiaron las distribuciones muestrales de la media
y de la proporción, dos parámetros que frecuentemente se desea conocer al extraer
una muestra. Otro parámetro que también se busca identificar a través de un
muestreo es la varianza, a partir de la cual se llega a la desviación estándar.

En el ejemplo del subtema 2.2, se plantearon lanzamientos de un dado para mostrar

el comportamiento del promedio muestral, ¿cómo sería la distribución de la varianza
de 100 muestras de dos y cinco lanzamientos? (Tablas 3 y 4). En este orden, la
figura 10 presenta la distribución de frecuencias de las varianzas de las 100
muestras de dos y cinco lanzamientos.

Figura 10. Distribución de frecuencias de las varianzas de dos

y cinco lanzamientos de un dado

Fuente: elaboración propia con empleo del paquete estadístico R.

82 de 357
Tercer semestre
En la figura anterior, se expresan las distribuciones de las varianzas de dos y cinco
lanzamientos, ambas sesgadas a la derecha. Obsérvese que con muestras de dos
elementos la distribución de frecuencias de la varianza se asemeja a una
exponencial, y al aumentar la muestra a cinco lanzamientos la distribución presenta
una curvatura y menor variación. Si se aumentara la muestra a 10, 30, 50 y 100
lanzamientos, la varianza tendría el comportamiento que ilustra la figura 11.

Figura 11. Distribución de la varianza para muestras

de 10, 30, 50 y 100 elementos

Fuente: elaboración propia con empleo del paquete estadístico R.

Nótese que, a medida que el tamaño de muestra se incrementa, la distribución de la

varianza pierde su sesgo y tiene un comportamiento acampanado.

83 de 357
Tercer semestre
La distribución empleada para modelar la varianza muestral es 𝝌𝝌𝟐𝟐 (ji-cuadrada), cuya
función de densidad es
𝟏𝟏 𝒏𝒏 −𝒙𝒙
𝒇𝒇(𝒙𝒙) = 𝒏𝒏
𝒏𝒏
𝒙𝒙𝟐𝟐 −𝟏𝟏 𝒆𝒆 𝟐𝟐
𝟐𝟐𝟐𝟐 𝚪𝚪(𝟐𝟐)

Para x >0
Donde n son los grados de libertad, que se definen de la misma forma como se hizo
con la distribución t de Student.

Las características de esta distribución son las siguientes:

Está definida para valores positivos.

Es sesgada a la derecha.

La forma de la distribución varía de acuerdo con los grados de

libertad.
Cuando n > 2, la media de la distribución es n y la varianza es
2n.

El valor modal de la distribución se observa en n – 2.

Figura 12. Ejemplo del comportamiento de una distribución 𝝌𝝌𝟐𝟐 con 2, 4 y 8

grados de libertad
0.5

n=2
0.4
Densidad

0.3
0.2

n=4
0.1

n=8
0.0

0 5 10 15 20 25 30

Fuente: elaboración propia.

84 de 357
Tercer semestre
En la figura anterior, se distingue que, conforme aumentan los grados de libertad, la
distribución tiende a aplanarse y el sesgo disminuye.

Resultados importantes

Al trabajar con esta distribución, se deben considerar los siguientes resultados

importantes:

Si de una población normal se toma

una muestra aleatoria simple de
El valor esperado de la varianza (𝒏𝒏−𝟏𝟏)𝒔𝒔𝟐𝟐
∑𝒏𝒏 (𝒙𝒙𝒊𝒊 −�𝒙𝒙)𝟐𝟐 tamaño n, la variable 𝒙𝒙𝟐𝟐 = ,
muestral 𝒔𝒔𝟐𝟐 = 𝒊𝒊=𝟏𝟏𝒏𝒏−𝟏𝟏 es σ2. 𝝈𝝈𝟐𝟐
tendrá una distribución ji cuadrada
con n – 1 grados de libertad.

Si una variable aleatoria X tiene una

distribución 𝝌𝝌𝟐𝟐 con n grados de
libertad, entonces, con una n
suficientemente grande, la variable
aleatoria 𝟐𝟐𝟐𝟐 se aproxima a tener
una distribución normal con media
𝟐𝟐𝟐𝟐 − 𝟏𝟏 y varianza 1.

Funciones en Excel para trabajar la distribución 𝝌𝝌𝟐𝟐

Excel dispone de las siguientes funciones para trabajar con la distribución:

85 de 357
Tercer semestre
[Link](x,grados_de_libertad). Calcula la probabilidad que se acumula en
una distribución 𝒙𝒙𝟐𝟐 con los grados de
libertad establecidos a partir del punto x.

[Link](probabilidad, grados Calcula el cuantil a partir del cual se

de libertad). acumula la probabilidad buscada en una
distribución 𝒙𝒙𝟐𝟐 con los grados de libertad
establecidos a partir del punto x.

Para ejemplificar el uso de la distribución,

supóngase que las transacciones bancarias
de una organización en el último ejercicio
fiscal se distribuyen como una distribución
normal con una desviación estándar de
$8,500. Si se elige al azar una muestra de
15 transacciones a fin de auditar al
departamento responsable, ¿cuál es la
probabilidad de que la desviación muestral
exceda a la poblacional?

Para resolver el problema, se requiere calcular

𝟐𝟐 𝟐𝟐 )
𝒔𝒔𝟐𝟐 𝒔𝒔𝟐𝟐
𝑷𝑷(𝒔𝒔 > 𝝈𝝈) = 𝑷𝑷(𝒔𝒔 > 𝝈𝝈 = 𝑷𝑷( 𝟐𝟐 > 𝟏𝟏) = 𝑷𝑷((𝒏𝒏 − 𝟏𝟏) ∙ 𝟐𝟐 > 𝒏𝒏 − 𝟏𝟏)
𝝈𝝈 𝝈𝝈

(𝒏𝒏−𝟏𝟏)𝒔𝒔𝟐𝟐
Como la variable tiene una distribución 𝝌𝝌𝟐𝟐 con n – 1 grados de libertad,
𝝈𝝈𝟐𝟐

entonces, la región que se está solicitando se encuentra a la derecha del valor

esperado, es decir, se requiere calcular P(X > 14). Utilizando la función de Excel
[Link] (14,14) = 0.4497, se calcula la probabilidad solicitada. Este resultado indica
que es más probable que la variabilidad muestral sea menor a la poblacional.

86 de 357
Tercer semestre
En caso de no conocerse la varianza poblacional, el problema se resuelve de la
misma manera.

Distribución para comparar dos varianzas

En este curso de Estadística II, a veces será necesario comparar la variabilidad de

dos muestras, por lo que se empleará la distribución conocida como F, la cual tiene
la siguiente función de densidad:
𝒏𝒏+𝒅𝒅 𝒏𝒏
𝚪𝚪( 𝟐𝟐
) 𝒏𝒏 𝒏𝒏 𝒙𝒙𝟐𝟐−𝟏𝟏
𝒇𝒇(𝒙𝒙) = 𝒏𝒏 𝒅𝒅
∙ ( )𝟐𝟐 ∙
𝚪𝚪( ) ∙ 𝚪𝚪( ) 𝒅𝒅 𝒏𝒏 𝒏𝒏+𝒅𝒅

𝟐𝟐 𝟐𝟐 (𝟏𝟏 + 𝒅𝒅 𝒙𝒙) 𝟐𝟐

Para 𝒙𝒙 > 𝟎𝟎

Donde n y d son los grados de libertad de cada una de las muestras a comparar.

Características de la distribución F:

Es una distribución continua.

Está definida para valores positivos.

Tiene un sesgo positivo.

Es asintótica.

87 de 357
Tercer semestre
Funciones en Excel para trabajar la distribución 𝑭𝑭

Excel tiene las siguientes funciones para trabajar con la distribución:

• Calcula la probabilidad que se

Distr.f(x,grados de libertad, acumula en una distribución 𝑭𝑭 con
grados de libertad2) los grados de libertad de cada
muestra a partir del punto x.

• Calcula el cuantil a partir del cual

se acumula la probabilidad
[Link](probabilidad, grados
buscada en una distribución 𝑭𝑭 con
de libertad)
los grados de libertad de cada
muestra a partir del punto x.

En la unidad 4, se mostrará con mayor detenimiento el empleo de la distribución F.

88 de 357
Tercer semestre
RESUMEN
Se analizó la importancia del muestreo para inferir sobre un parámetro de la
población de interés. Al obtener una muestra aleatoria, se busca conocer los valores
de los parámetros poblacionales por medio de los valores que arroja la muestra. Los
parámetros muestrales son variables aleatorias porque dependen de los valores de
los elementos en la muestra, por lo que resulta necesario identificar sus
distribuciones para medir la calidad de los resultados.

También se expusieron las distribuciones muestrales

principales para inferir sobre el promedio, una
proporción y la varianza poblacional. Los dos
primeros siguen una distribución normal y la
varianza muestral puede modelarse con una
distribución ji cuadrada. Además se
mencionaron de forma general las
características de la distribución F, la cual se
empleará para comparar dos varianzas.

De igual manera, se explicó el teorema del límite central utilizando como ejemplo el
lanzamiento de un dado, lo que garantiza que la distribución muestral del promedio
se acerca a una normal conforme la muestra se incrementa.

Como valor agregado, se presentaron las funciones de Excel para trabajar con las
distribuciones muestrales del promedio, de una proporción y de la varianza, que se
aplicarán en las siguientes unidades.

89 de 357
Tercer semestre
BIBLIOGRAFÍA

SUGERIDA

Autor Capítulo Páginas

Anderson, S.(2016) 7 265-307
Levin, R. (2010) 6 247-272
Lind, D. (2015) 8 275-296

90 de 357
Tercer semestre
UNIDAD 3

Estimación de parámetros

91 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno aprenderá los métodos de estimación de parámetros
y su interpretación.

TEMARIO DETALLADO

(10 horas)

3. Estimación de parámetros
3.1. Estimaciones por punto y estimaciones por intervalo
3.2. Error de muestreo y errores que no son de muestreo
3.3. Propiedades de los estimadores
3.4. Estimación de una media con muestras grandes
3.4.1. Determinación del tamaño de muestra necesario para estimar una
media
3.5. Estimación de una media con muestras pequeñas
3.6. Estimación de una proporción
3.6.1. Determinación del tamaño de muestra para estimar una
proporción
3.7. Otros intervalos de confianza

92 de 357
Tercer semestre
INTRODUCCIÓN

Con frecuencia, las organizaciones requieren tener indicios del comportamiento de

cierta variable de interés. Por ejemplo, el área de mercadotecnia de un banco
pudiera estar interesada en conocer qué proporción de tarjetahabientes del producto
premium responden a una promoción relacionada con un viaje a pagar en plazos sin
intereses. O una organización no gubernamental dedicada a implementar programas
para mejorar la nutrición de los niños entre seis y 12 años de comunidades rurales
querría conocer el promedio de ingesta calórica de esta población.

Como se ha explicado en la primera unidad de

este material, el comportamiento de la población
está determinado por el valor de un parámetro.
Este parámetro, normalmente desconocido, se
calculará con la información de una muestra.

En esta unidad, se estudiará uno de los temas básicos de la materia: la estimación

de parámetros, en particular, la media, el promedio y la varianza poblacional.

En primer lugar, se mostrarán los tipos de estimación empleados: puntual y de

intervalo. El siguiente tema corresponde a los tipos de errores de estimación, los
cuales son atribuibles al muestreo u otra causa, continuando con las propiedades de
los estimadores. Una vez explicados los aspectos más importantes que se deben
tomar en cuenta en la estimación, el siguiente paso es mostrar cómo realizar

93 de 357
Tercer semestre
estimaciones del promedio poblacional (tanto con muestras grandes como con
pequeñas), estimaciones de una proporción, y finalmente cómo construir un intervalo
de confianza para la varianza y desviación poblacional.

94 de 357
Tercer semestre
3.1. Estimaciones por punto y
estimaciones por intervalo
Como se mencionó en la unidad de introducción al muestreo, la finalidad de la
Estadística II es realizar estimaciones de parámetros poblacionales con los valores
de una muestra. Supóngase que en una organización se realizará un evento
deportivo donde se ofrecerán bebidas energéticas a 800 participantes: los
organizadores se preguntan qué cantidad del líquido adquirir. Para resolver este
problema, encuestan a una muestra de 50 posibles asistentes acerca de la cantidad
de bebida que consumen en un evento similar. La encuesta arrojó que en promedio
consumen cuatro litros por persona; así, los organizadores estiman que deberán
adquirirse 800 x 4 = 3200 litros. Los organizadores creen que no necesariamente se
tendría que consumir esa cantidad, por lo que prefieren manejar un intervalo., y
después de un análisis de la información estiman que el consumo será entre 3000 y
3400 litros. ¿Qué diferencia hubo entre ambas estimaciones? En este subtema, se
responderá esta pregunta.

95 de 357
Tercer semestre
Notación y conceptos

Un parámetro es un valor de la población que determina su comportamiento; por

ejemplo, el comportamiento de una población con un promedio de cinco unidades es
diferente a otra con promedio de ocho unidades. Para hacer referencia a un
parámetro poblacional, se utilizará la letra θ.

El estimador es la regla que indica cómo realizar el cálculo de una estimación a

�.
través de una fórmula que involucre los valores de una muestra; se denota como 𝜽𝜽
El símbolo “^” significa que la fórmula es un estimador del parámetro θ. Por ejemplo,
� , el estimador
si el parámetro poblacional a estimar (θ) es el promedio poblacional 𝑿𝑿
�.
del parámetro se denotará como 𝑿𝑿

Como observación adicional, para referirse a parámetros poblacionales se utilizan

letras mayúsculas o letras del alfabeto griego.

Se define como estimación al valor resultante de aplicar el estimador con los datos
de la muestra.

En la figura 1 se ilustra el objetivo de un estimador.

Figura 1. Objetivo de un estimador

96 de 357
Tercer semestre
La figura anterior presenta dos conjuntos de diferente tamaño. El menor ejemplifica
una muestra de tamaño n tomada del conjunto mayor, que es la población con N
� , el cual busca estimar el
elementos. Dentro de la muestra, se obtiene el estimador 𝜽𝜽
valor del parámetro poblacional θ, que normalmente se desconoce. Se espera que la
estimación se aproxime al valor real, lo cual se representa con el símbolo ≈.

Tipos de estimación

En el ejemplo narrado al comienzo de esta sección, los organizadores del evento

estimaron la cantidad de bebida energética de dos maneras: a través de un valor
puntual y mediante un rango. Lo anterior ejemplifica que la estimación de un
parámetro puede hacerse de forma puntual o por intervalo. La figura 2 explica ambos
tipos de estimación.
Figura 2. Tipos de estimación

Tipos de estimación

Intervalos
Puntual
La estimación es un rango de valores
La estimación es un solo valor que se
donde se espera se encuentre el
considera es el quetoma el parámetro.
parámetro.

3,000 3,200 3,400

LI Estimación puntual LS
3,200

Estimación por intervalos

IC = (3,000, 3,400)

97 de 357
Tercer semestre
La figura anterior define los tipos de estimación (puntual y de intervalo). La parte
inferior de la figura representa esos tipos de estimación: la línea central de color azul
señala la estimación puntual del parámetro (3200 litros de bebida energética); y las
líneas en color verde, el rango de valores donde se espera que se encuentre el valor
del parámetro (3000, 3400).

Estimación puntual (por punto)

Estimación puntual o por

punto

Consiste en utilizar una regla o fórmula para estimar el

parámetro poblacional con los valores de una muestra.
El resultado de esta estimación es solamente un valor.

Los parámetros poblacionales que habitualmente interesa estimar son el promedio y

la proporción poblacional. La tabla siguiente presenta los estimadores para estos
parámetros.

Tabla 1. Parámetros y estimadores más usados

Parámetro poblacional �
Estimador 𝜽𝜽
Θ Notación Fórmula
Promedio Promedio ∑ 𝒙𝒙𝒊𝒊
Μ 𝛍𝛍
� = 𝒙𝒙
� 𝒙𝒙
�=
𝒏𝒏
Proporción Proporción ∑ 𝒙𝒙𝒊𝒊
�=p 𝒑𝒑 = 𝒙𝒙𝒊𝒊 = 0 o 1
P 𝐏𝐏 𝒏𝒏

En la tabla anterior, la primera columna muestra el nombre y la notación del

parámetro. Las siguientes dos columnas hacen referencia al estimador del
parámetro: una indica cómo denotarlo; la otra, la fórmula que lo define.

98 de 357
Tercer semestre
Cuando se desconoce la varianza poblacional, se recurre a estimarla con la muestral:

�)𝟐𝟐
∑(𝒙𝒙𝟏𝟏 − 𝒙𝒙
𝒔𝒔𝟐𝟐 =
𝒏𝒏 − 𝟏𝟏

Estimación por intervalos

Estimación por Consiste en calcular un rango de valores en los que se espera,

intervalos con cierto nivel de confianza, que se encuentre contenido el
parámetro. El resultado de esta estimación es un intervalo. Es
común llamar a este rango de valores intervalo de confianza.

Fórmula general para construir el intervalo de confianza:

� ± 𝜹𝜹𝝈𝝈𝜽𝜽�
𝑰𝑰𝑰𝑰 = 𝜽𝜽

•
Donde:

𝑰𝑰𝑰𝑰 = 𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰𝑰 𝒅𝒅𝒅𝒅 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄

� = 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒅𝒅𝒅𝒅𝒅𝒅 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑
𝜽𝜽
𝜹𝜹 = 𝒏𝒏𝒏𝒏𝒏𝒏𝒏𝒏𝒏𝒏 𝒅𝒅𝒅𝒅 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄. Probabilidad de que el intervalo de confianza
contenga al parámetro de la población
𝝈𝝈𝜽𝜽� = 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆

Como un estimador emplea los valores de una muestra aleatoria, el resultado es

también aleatorio, por lo que un estimador es una variable aleatoria con un valor
� � y una varianza 𝑽𝑽𝑽𝑽𝑽𝑽 �𝜽𝜽
esperado 𝑬𝑬�𝜽𝜽 � �. El nivel de confianza de la fórmula más que

entenderse como una probabilidad debe considerarse una proporción de éxito en un

número muy grande de repeticiones.

99 de 357
Tercer semestre
Para construir un intervalo de confianza, es necesario conocer la estimación puntual
del parámetro y la desviación del estimador, y determinar el nivel de confianza.

La siguiente tabla muestra, para los parámetros promedio y proporción, su estimador,

la fórmula para realizar la construcción del intervalo de confianza para muestras
grandes y pequeñas, la fórmula para realizar una estimación puntual y la desviación
estándar del estimador.

Tabla 2. Elementos para construir un intervalo de confianza para

el promedio y proporción poblacional

Fórmula
Tamaño
Parámetro Desviación
Estimador de la Intervalo de Estimador
población estándar del
muestra confianza puntual estimador

𝝈𝝈
n>30 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙 𝒔𝒔
Promedio √𝒏𝒏 ∑ 𝒙𝒙𝒊𝒊 𝒔𝒔𝒙𝒙� =
�
𝒙𝒙 �=
𝒙𝒙 √𝒏𝒏
μ 𝝈𝝈 𝒏𝒏
n<30 � ± 𝒕𝒕
𝑰𝑰𝑰𝑰 = 𝒙𝒙
√𝒏𝒏
𝒑𝒑𝒑𝒑 ∑ 𝒙𝒙𝒊𝒊 𝒑𝒑𝒑𝒑
n>30 𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒁𝒁� 𝒑𝒑 = 𝒔𝒔𝒑𝒑 = �
Proporción 𝒏𝒏 𝒏𝒏 𝒏𝒏
p
P 𝒑𝒑𝒑𝒑
n<30 𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒕𝒕� 𝒙𝒙𝒊𝒊 = 𝟎𝟎 𝒐𝒐 𝟏𝟏 q=1-p
𝒏𝒏

100 de 357
Tercer semestre
3.2. Error de muestreo y errores
que no son de muestreo

En todo ejercicio de estimación se asume la ocurrencia de un error, por lo que desde

el diseño se debe buscar disminuirlo. Los errores que se pueden presentar son
atribuibles al muestreo o a otras causas, como se explica a continuación.

Error de muestreo

Toda estimación tiene un error debido a que se conoce una parte de la información.
Al comienzo de cualquier ejercicio de estimación se debe fijar el límite de error
permitido, como un porcentaje o como una desviación de unidades.

El error de muestreo se refiere a un error de la estimación

atribuible a la muestra.

Por ejemplo, supóngase que se determinó manejar un error de

cinco puntos porcentuales en la estimación de la proporción de
alumnos que reprueban un curso de matemáticas financieras;
supóngase además que la proporción real es de 36% y la
muestra obtenida arroja una estimación de 15%. El error en la
estimación más que a la metodología se debe a los alumnos
que fueron seleccionados: el error es atribuible a la muestra.

En la figura 3 se ilustra este error de muestreo.

101 de 357
Tercer semestre
Figura 3. Error de muestreo

Como se sabe, el valor del parámetro determina la distribución de la población, por

eso en el eje horizontal se relaciona con el valor del parámetro, por tanto, la
distribución se encuentra asociada a este valor.

En la figura, la muestra consiste en elementos con valores ubicados principalmente

en la parte izquierda de la distribución:

La estimación resultó estar alejada del parámetro real, aunque de

acuerdo con la distribución es menos probable que ocurra (esto no
significa que no pueda ocurrir).

La distancia entre el valor real del parámetro y su estimación es el error. Para

manejar este error, se buscará un tamaño de muestra que garantice

� < 𝑩𝑩 ≥ 𝟏𝟏 − 𝜶𝜶
𝑷𝑷 𝜽𝜽 − 𝜽𝜽

Es decir, la probabilidad de que ocurra un error máximo B debe ser al menos 1 – α,

donde alfa (α) es un valor entre 0 y 1. Entonces, esta probabilidad es el nivel de
significancia. 8

8 La fórmula anterior es resultado de la ley de los grandes números, uno de los principales resultados

de probabilidad: entre mayor información se tenga de un parámetro, la probabilidad de que la

estimación se acerque al valor real se incrementa.

102 de 357
Tercer semestre
Error no atribuible al muestreo

El error no atribuible al muestreo se debe, entre otras causas, a un mal diseño del
instrumento, la logística implementada o una elevada tasa de no respuesta.

Un buen diseño que considere estas eventualidades ayudará a reducir y controlar el

riesgo de error.

Un ejemplo de error no atribuible al

muestreo es el siguiente. Una empresa
desea conocer el número de tazas de café
que toma cierto segmento de interés, y en
vez de utilizar una variable cuantitativa en la
respuesta de su pregunta emplea una
cualitativa.

103 de 357
Tercer semestre
3.3. Propiedades de los estimadores
Para estimar un parámetro, puede existir en ocasiones más de un estimador, por lo
que es necesario utilizar aquellos que tengan las propiedades que se explican a
continuación.

Propiedades deseables de los estimadores

Insesgado
• La primera propiedad de un estimador es que estime lo que se
quiere estimar; por ejemplo, si se realizara una estimación con
muchas muestras aleatorias, el valor esperado del estimador
es el parámetro poblacional de interés. Cuando esto ocurre, el
estimador es insesgado.

Un estimador es insesgado si satisface la siguiente condición:

� � = 𝜽𝜽
𝑬𝑬�𝜽𝜽

Si esto se cumple, entonces:

� � = 𝑽𝑽𝑽𝑽𝑽𝑽 �𝜽𝜽
𝑬𝑬𝑬𝑬𝑬𝑬�𝜽𝜽 ��

En la figura 4 se ilustra esta propiedad.

104 de 357
Tercer semestre
Figura 4. Distribución de un estimador insesgado

E(
La figura anterior ilustra la distribución de un estimador insesgado cuyo valor
esperado es el parámetro. Es importante mencionar que la distribución acampanada
de la figura solamente es con fines ilustrativos, ya que un estimador no
necesariamente tiene esta distribución de probabilidades.

Con menos variabilidad

• La siguiente característica que se busca en un estimador es que sus

estimaciones varíen lo menos posible del parámetro poblacional. Un
estimador así es más eficiente o con menos variabilidad.

� 𝟏𝟏 y 𝜽𝜽
Sean 𝜽𝜽 � 𝟐𝟐 dos estimadores del parámetro θ:

� 𝟏𝟏 �<𝑽𝑽𝑽𝑽𝑽𝑽 �𝜽𝜽
Si 𝑽𝑽𝑽𝑽𝑽𝑽 �𝜽𝜽 � 𝟐𝟐 �

� 𝟏𝟏 es más eficiente que 𝜽𝜽

Entonces, 𝜽𝜽 � 𝟐𝟐

La figura 5 ilustra esta característica.

105 de 357
Tercer semestre
Figura 5. Eficiencia de dos estimadores insesgados

θ θ
Menor variabilidad Mayor variabilidad
1

� 𝟏𝟏 y 𝜽𝜽
La figura 5 ilustra la distribución de dos estimadores 𝜽𝜽 � 𝟐𝟐 del parámetro
poblacional θ. Aunque ambos estimadores son insesgados, el primero da mejores
estimaciones, en tanto es más probable que arroje un valor más cercano al
� 𝟏𝟏 es más eficiente que 𝜽𝜽
parámetro real respecto del segundo. Por tanto, 𝜽𝜽 � 𝟐𝟐 .

Consistente
• La última propiedad esperada en un estimador es que, a medida que
utilice mayor información de la población, su estimación sea cada vez
más cercana al parámetro poblacional. Cuando esto ocurre, el estimador
es consistente.

La figura 6 ilustra el comportamiento de un estimador consistente.

106 de 357
Tercer semestre
Figura 6. Comportamiento de un estimador consistente

n = 100

n = 10

La figura anterior ilustra el comportamiento de un estimador consistente. Conforme

aumenta el tamaño de muestra, la variabilidad del estimador disminuye: las
estimaciones son cada vez más cercanas al valor real del parámetro.

107 de 357
Tercer semestre
3.4. Estimación de una media
con muestras grandes
El teorema del límite central garantiza que, conforme aumenta el tamaño de la
muestra, la distribución del promedio muestral se acerca a una distribución normal
cuya media es el promedio poblacional, y la varianza es la varianza poblacional entre
el tamaño de la muestra. Como regla general:

se considera que con un tamaño de muestra al menos de 30

elementos la distribución del promedio muestral sigue una
distribución normal.

Teniendo presente esta regla, en muestras grandes (al menos de 30 elementos) se

empleará una distribución normal para realizar una estimación por intervalo de la
media.

La tabla siguiente muestra el parámetro medio, su estimador, el tamaño de la

muestra, la fórmula para el intervalo de confianza de la media, la fórmula para
calcular el estimador de la media y la fórmula del estimador de la media muestral.

108 de 357
Tercer semestre
Tabla 3. Elementos para realizar la estimación puntual y por intervalo de la
media (promedio) con muestras grandes

Fórmula
Tamaño
Parámetro Desviación
Estimador de la Intervalo de Estimador
población estándar del
muestra confianza puntual
estimador

Promedio 𝒔𝒔 ∑ 𝒙𝒙𝒊𝒊 𝒔𝒔
�
𝒙𝒙 n>30 𝑰𝑰𝑰𝑰 = �
𝒙𝒙 ± 𝒛𝒛 �=
𝒙𝒙 𝒔𝒔𝒙𝒙� =
μ √𝒏𝒏 𝒏𝒏 √𝒏𝒏

En la tabla anterior, columna 5, se muestra el estimador puntual de la media

poblacional, que es el promedio muestral. En la columna 4, se presenta cómo
calcular el intervalo de confianza. En este caso, cuando se conoce la varianza
poblacional, se utiliza en los cálculos; de no ser así, se estima este valor empleando
la varianza muestral. El valor Z representa el nivel de confianza buscado; en este
planteamiento, z es el cuantil de una distribución normal estándar (Z) que parte la
𝜶𝜶 𝜶𝜶
curva en dos áreas, una con valor 1-𝟐𝟐 y otra de 𝟐𝟐, siendo α un valor entre 0 y 1.

En la columna 6, se muestra la desviación del estimador, acorde con el teorema del

límite central.

Para calcular el valor de z, se puede recurrir a tablas o algún paquete. A

continuación, se plantea cómo calcularlo en MS-Excel.

En Excel se emplea la función

[Link](probabilidad)

𝜶𝜶
Para calcular el cuantil z donde se acumula una probabilidad de 1-𝟐𝟐 (0<α<1)

En la figura 7, se ilustra el valor que calcula la fórmula.

109 de 357
Tercer semestre
Figura [Link] calculado con la fórmula de Excel
[Link](probabilidad)

En la figura anterior, en el valor encerrado en el círculo rojo se encuentra el punto

que estima la fórmula. La información que se introduce en la fórmula es el área
acumulada del lado izquierdo de z.

Supóngase que se desea realizar una estimación con un nivel de confianza del 95%,
entonces:

1 – α = 0.95 𝜶𝜶 𝟎𝟎.𝟎𝟎𝟎𝟎
= = 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎
𝟐𝟐 𝟐𝟐
α = 1-0.95 Por tanto:
α = 0.05

Entonces, el valor z es el siguiente:

[Link](1-0.025) = 1.96

En la tabla 4 se muestran los valores de z para los niveles de confianza más usados.

110 de 357
Tercer semestre
Tabla 4. Valores de z obtenidos para los niveles de confianza más
usados empleando Excel
Nivel de α Función en MS-Excel
𝜶𝜶 z
confianza 1-nivel de confianza [Link](1-𝟐𝟐 )

90% 10% [Link](1-0.10/2) 1.64

95% 5% [Link](1-0.05/2) 1.96

99% 9% [Link](1-0.01/2) 2.58

Ejemplos de estimación de una media con muestras grandes

Primer ejemplo

El director financiero de una agencia de publicidad

desea conocer el gasto promedio de la organización,
pues está preocupado por el nivel de gasto
registrado recientemente. Por tal motivo realiza una
auditoría a 30 facturas elegidas al azar.

La información de las erogaciones seleccionadas se muestra a continuación.

111 de 357
Tercer semestre
Monto de las facturas auditadas
Monto de facturas combinadas
Gasto en Gasto en
Factura Factura
miles miles
1 99 16 96
2 15 17 79
3 59 18 71
4 14 19 56
5 72 20 51
6 59 21 72
7 68 22 25
8 22 23 71
9 40 24 52
10 79 25 99
11 97 26 70
12 82 27 82
13 93 28 47
14 76 29 35
15 48 30 93

Con la información de esta muestra, procede lo siguiente:

Estimar el gasto promedio de la organización con una estimación

puntual.

Estimar un intervalo de confianza con un nivel de confianza del 99%.

Interpretar los resultados.

112 de 357
Tercer semestre
Respuestas
Para solucionar este problema, se sugiere realizar lo siguiente.

1. Determinar el parámetro a estimar 2. Determinar el estimador del

Promedio μ Parámetro 𝒙𝒙
�

3. Calcular el estimador puntual a través 4. Determinar la fórmula para realizar el cálculo de

de la fórmula correspondiente: la estimación por intervalo del estimador:
∑ 𝒙𝒙𝒊𝒊 𝒔𝒔
�=
𝒙𝒙 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
𝒏𝒏 √𝒏𝒏
𝟗𝟗𝟗𝟗 + 𝟏𝟏𝟏𝟏 + ⋯ + 𝟑𝟑𝟑𝟑 + 𝟗𝟗𝟗𝟗
�=
𝒙𝒙
𝟑𝟑𝟑𝟑
𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗
�=
𝒙𝒙 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎
𝟑𝟑𝟑𝟑

5. Establecer el nivel de confianza para 6. Determinar la fórmula para calcular la desviación

calcular z, a través del nivel de confianza estándar del estimador
(1-α) 𝒔𝒔
𝒔𝒔𝒙𝒙� =
√𝒏𝒏
Nivel de confianza 99%, es decir, 0.99
Calcular la desviación estándar s y definir el valor
Determinar el valor de α, donde
de n
α = 1 – nivel de confianza
n = 30
α = 1 – 0.99
α = 0.01 �)𝟐𝟐
∑(𝒙𝒙𝒊𝒊 − 𝒙𝒙
𝒔𝒔 = �
𝒏𝒏 − 𝟏𝟏
Calcular el valor de z, utilizando la
función en Excel 𝒔𝒔 = �
(𝟗𝟗𝟗𝟗 − 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎)𝟐𝟐 + (𝟏𝟏𝟏𝟏 − 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎)𝟐𝟐 + ⋯ (𝟑𝟑𝟑𝟑 − 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎)𝟐𝟐 + (𝟗𝟗𝟗𝟗 − 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎)𝟐𝟐
𝟑𝟑𝟑𝟑 − 𝟏𝟏
DISTR. NORM. ESTAND. INV (1- α /2)
𝟏𝟏𝟏𝟏, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟖𝟖𝟖𝟖
[Link]. ESTAND. INV (1-0.01/2) 𝒔𝒔 = �
𝟐𝟐𝟐𝟐
Z = 2.5758 = 2.58
𝒔𝒔 = √𝟔𝟔𝟔𝟔𝟔𝟔. 𝟒𝟒𝟒𝟒𝟒𝟒
𝒔𝒔 = 𝟐𝟐𝟐𝟐. 𝟏𝟏𝟏𝟏

113 de 357
Tercer semestre
7. Calcular la desviación del estimador a 8. Sustituir los valores en la fórmula general y
través de la fórmula correspondiente: calcular el límite inferior (LI) y límite superior (LS)
𝒔𝒔 del intervalo de confianza (IC):
𝒔𝒔𝒙𝒙� =
√𝒏𝒏 𝒔𝒔
𝟐𝟐𝟐𝟐. 𝟏𝟏𝟏𝟏 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
𝒔𝒔𝒙𝒙� = √𝒏𝒏
√𝟑𝟑𝟑𝟑 𝑰𝑰𝑰𝑰 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎 ± 𝟐𝟐. 𝟓𝟓𝟓𝟓 ∙ 𝟒𝟒. 𝟓𝟓𝟓𝟓
𝟐𝟐𝟐𝟐. 𝟏𝟏𝟏𝟏 𝑰𝑰𝑰𝑰 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎 ± 𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖
𝒔𝒔𝒙𝒙� =
𝟓𝟓. 𝟒𝟒𝟒𝟒𝟒𝟒 𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎 − 𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖
𝒔𝒔𝒙𝒙� = 𝟒𝟒. 𝟓𝟓𝟓𝟓 𝑳𝑳𝑳𝑳 = 𝟓𝟓𝟓𝟓. 𝟐𝟐𝟐𝟐
𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎 + 𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖
𝑳𝑳𝑳𝑳 = 𝟕𝟕𝟕𝟕. 𝟗𝟗𝟗𝟗

9. Construir el intervalo de confianza:

𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟓𝟓𝟓𝟓. 𝟐𝟐𝟐𝟐, 𝟕𝟕𝟕𝟕. 𝟗𝟗𝟗𝟗)
Conforme a la estimación puntual, el promedio de gasto de la organización es de $64.06
(miles).
De acuerdo con la estimación por intervalo, el gasto promedio de la organización a un nivel de
confianza del 99% se sitúa entre $52.22 y $75.91 (miles).

52 64 76
LI LS

Segundo ejemplo

Una farmacéutica cuenta con 500 representantes

médicos. Con la intención de diseñar un plan de
incentivos, se quiere conocer el promedio de visitas que
realizan los representantes, para lo cual se analizó una
muestra de 35 representantes médicos elegidos al azar.

114 de 357
Tercer semestre
En la siguiente tabla, se muestran las visitas realizada en un día por 35
representantes seleccionados.

a. Estimar el promedio de visitas que realizan los representantes médicos, con

una estimación puntual.
b. Estimar un intervalo de confianza con un nivel de confianza del 95%.
c. Interpretar los resultados.

Número de Número de
Representante visitas Representante visitas
realizadas realizadas
1 8 19 5
2 4 20 5
3 7 21 8
4 8 22 7
5 6 23 7
6 6 24 7
7 5 25 5
8 8 26 6
9 6 27 8
10 6 28 7
11 7 29 5
12 7 30 5
13 6 31 7
14 4 32 4
15 5 33 7
16 7 34 7
17 8 35 6
18 6

Respuestas

1. Determinar el parámetro a estimar: 2. Determinar el estimador del

Promedio μ parámetro 𝒙𝒙
�

3. Calcular el estimador puntual a 4. Determinar la fórmula para realizar el

través de la fórmula correspondiente: cálculo de la estimación puntual del
∑ 𝒙𝒙𝒊𝒊 estimador:
�=
𝒙𝒙
𝒏𝒏

115 de 357
Tercer semestre
𝟖𝟖 + 𝟒𝟒 + ⋯ + 𝟕𝟕 + 𝟔𝟔 𝒔𝒔
�=
𝒙𝒙 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
𝟑𝟑𝟑𝟑 √𝒏𝒏
𝟐𝟐𝟐𝟐𝟐𝟐
�=
𝒙𝒙 = 𝟔𝟔. 𝟐𝟐𝟐𝟐
𝟑𝟑𝟑𝟑

5. Establecer el nivel de confianza 6. Determinar la fórmula para calcular la

para calcular z: desviación estándar del estimador:
95%, es decir, 0.95 𝒔𝒔
𝒔𝒔𝒙𝒙� =
√𝒏𝒏
Determinar el valor de α:
Calcular la desviación estándar s y
α = 1 – 0.95
definir el valor de n:
α = 0.05
n = 35
Calcular z con la función de Excel:
DISTR. NORM. ESTAND. INV (1- α �)𝟐𝟐
∑(𝒙𝒙𝒊𝒊 − 𝒙𝒙
𝒔𝒔 = �
𝒏𝒏 − 𝟏𝟏
/2)
𝒔𝒔
DISTR. NORM. ESTAND. INV (1-
(𝟖𝟖 − 𝟔𝟔. 𝟐𝟐𝟐𝟐)𝟐𝟐 + (𝟒𝟒 − 𝟔𝟔. 𝟐𝟐𝟐𝟐)𝟐𝟐 + ⋯ (𝟕𝟕 − 𝟔𝟔. 𝟐𝟐𝟐𝟐)𝟐𝟐 + (𝟔𝟔 − 𝟔𝟔. 𝟐𝟐𝟐𝟐)
0.05/2) =�
𝟑𝟑𝟑𝟑 − 𝟏𝟏
Z = 1.959 = 1.96
𝟓𝟓𝟓𝟓. 𝟏𝟏𝟏𝟏
𝒔𝒔 = �
𝟑𝟑𝟑𝟑

𝒔𝒔 = √𝟏𝟏. 𝟓𝟓𝟓𝟓𝟓𝟓
𝒔𝒔 = 𝟏𝟏. 𝟐𝟐𝟐𝟐𝟐𝟐

7. Calcular la desviación del 8. Sustituir los valores en la fórmula general

estimador a través de la fórmula y calcular el límite inferior (LI) y límite
correspondiente: superior (LS) del intervalo de confianza (IC):
𝒔𝒔 𝒔𝒔
𝒔𝒔𝒙𝒙� = � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
√𝒏𝒏 √𝒏𝒏
𝟏𝟏. 𝟐𝟐𝟐𝟐𝟐𝟐 𝑰𝑰𝑰𝑰 = 𝟔𝟔. 𝟐𝟐𝟐𝟐 ± 𝟏𝟏. 𝟗𝟗𝟗𝟗 ∙ 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐
𝒔𝒔𝒙𝒙� =
√𝟑𝟑𝟑𝟑
𝑰𝑰𝑰𝑰 = 𝟔𝟔. 𝟐𝟐𝟐𝟐 ± 𝟎𝟎. 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝟏𝟏. 𝟐𝟐𝟐𝟐𝟐𝟐
𝒔𝒔𝒙𝒙� = 𝑳𝑳𝑳𝑳 = 𝟔𝟔. 𝟐𝟐𝟐𝟐 − 𝟎𝟎. 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝟓𝟓. 𝟗𝟗𝟗𝟗𝟗𝟗
𝒔𝒔𝒙𝒙� = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝑳𝑳𝑳𝑳 = 𝟓𝟓. 𝟖𝟖𝟖𝟖
𝑳𝑳𝑳𝑳 = 𝟔𝟔. 𝟐𝟐𝟐𝟐 + 𝟎𝟎. 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝑳𝑳𝑳𝑳 = 𝟔𝟔. 𝟔𝟔𝟔𝟔

116 de 357
Tercer semestre
9. Construir el intervalo de confianza:
𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟓𝟓. 𝟖𝟖𝟖𝟖, 𝟔𝟔. 𝟔𝟔𝟔𝟔)
Con base en la estimación puntual, el promedio de visitas diarias efectuadas por un
representante médico es de 6.
Conforme a la estimación por intervalo, el promedio de visitas que realiza un
representante médico al día con un nivel de confianza del 95% se sitúa entre 6 y 7.

5.9
LI LS

3.4.1. Determinación del tamaño de muestra

necesario para estimar una media

En la unidad dos se mostró que conforme el tamaño de la muestra se incrementa, el

promedio muestral se aproxima a una distribución normal cuyo valor esperado es la
media poblacional, y su desviación es la desviación poblacional dividida entre la raíz
cuadrada del tamaño de la muestra. Dado lo anterior, conforme el tamaño de la
muestra se incrementa, disminuye el error de estimación. Ahora bien, ¿de qué
tamaño debe ser la muestra para garantizar una estimación confiable?

Para responder a lo anterior, se debe tener claridad sobre dos aspectos: el error
máximo permitido y el nivel de confianza deseado. Cualquier resultado de un
muestreo va a presentar un error de estimación, pero se busca que el riesgo α de
que la distancia entre la estimación y el valor real supere un límite de error B
predefinido sea pequeño, es decir:
� | > 𝑩𝑩) < 𝜶𝜶
� − 𝑿𝑿
𝑷𝑷(|𝒙𝒙

117 de 357
Tercer semestre
Lo cual es equivalente a:

� | ≤ 𝑩𝑩) ≥ 𝟏𝟏 − 𝜶𝜶
� − 𝑿𝑿
𝑷𝑷(|𝒙𝒙 𝟎𝟎 ≤ 𝜶𝜶 ≤ 𝟏𝟏 (1)

Donde:

� 𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏 𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩
𝐗𝐗:
𝐱𝐱�: 𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏 𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦
𝐁𝐁: 𝐄𝐄𝐄𝐄𝐄𝐄𝐄𝐄𝐄𝐄 𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩

Entonces, como el promedio muestral sigue una distribución normal, si se expresa el

𝝈𝝈
error B en múltiplos de la desviación estándar del estimador, digamos 𝒛𝒛𝝈𝝈𝒙𝒙� = 𝒛𝒛 (1),
√𝒏𝒏

queda de la siguiente forma:

� | ≤ 𝑩𝑩) ≥ 𝟏𝟏 − 𝜶𝜶
� − 𝑿𝑿
𝑷𝑷(|𝒙𝒙
𝝈𝝈
→ 𝑷𝑷 �|𝒙𝒙 � | ≤ 𝒛𝒛
� − 𝑿𝑿 � ≥ 𝟏𝟏 − 𝜶𝜶
√𝒏𝒏
→ 𝑷𝑷(|𝒁𝒁| ≤ 𝒛𝒛 ) ≥ 𝟏𝟏 − 𝜶𝜶

Lo cual es una región de una distribución normal estandarizada limitada por los
cuantiles ±z.

A manera de ejemplo, si α=0.05, la región que se encuentra entre ±1.96 en una

distribución normal estandarizada tiene 95% de probabilidad, como lo ilustra la figura.

118 de 357
Tercer semestre
Figura 8. Región con probabilidad de 95% con un alfa de 0.05

0.4
0.3
f(z)

0.2

95%
0.1
0.0

-3 -2 -1 0 1 2 3

Fuente: elaboración propia con uso de R. R Core Team (2014). R: A language and environment for statistical
computing. R Foundation for Statistical Computing, Vienna, Austria. URL [Link]

Obsérvese que la confiabilidad de la estimación, 1-α, se encuentra directamente

asociada al valor de z. Por otro lado, si:
𝑩𝑩 = 𝒛𝒛𝝈𝝈𝒙𝒙�

Y además se está trabajando con una población finita de tamaño N entonces:

𝝈𝝈 𝒏𝒏
𝑩𝑩 = 𝒛𝒛𝝈𝝈𝒙𝒙� = 𝒛𝒛 �𝟏𝟏 −
√𝒏𝒏 𝑵𝑵

Al despejar n se obtiene:

𝟐𝟐
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐 𝒏𝒏
𝑩𝑩 = �𝟏𝟏 − �
𝒏𝒏 𝑵𝑵
𝟐𝟐
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝑩𝑩 = −
𝒏𝒏 𝑵𝑵
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐 𝑵𝑵𝑩𝑩𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝟐𝟐
= 𝑩𝑩 + =
𝒏𝒏 𝑵𝑵 𝑵𝑵
𝑵𝑵𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 = (2)
𝑵𝑵𝑩𝑩𝟐𝟐 +𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐

119 de 357
Tercer semestre
En caso de estar trabajando con una población infinita o con una donde el tamaño N
es desconocido, el error B es:
𝝈𝝈
𝑩𝑩 = 𝒛𝒛𝝈𝝈𝒙𝒙� = 𝒛𝒛
√𝒏𝒏

Al despejar n de esta ecuación se obtiene:

𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 = (3)
𝑩𝑩𝟐𝟐

Las fórmulas (2) y (3) son las mismas que se presentaron en la sección 1.6.

Como observación adicional, en caso de desconocerse el valor de 𝝈𝝈𝟐𝟐 se utiliza el

estimador insesgado 𝒔𝒔𝟐𝟐 .

Regresando al punto inicial, para calcular el tamaño de muestra se debe establecer

el nivel de error permitido, B, así como el riesgo α de obtener una estimación que
difiera del valor real en una cantidad mayor a B, la cual se encuentra asociada a z. A
continuación, se muestran ejemplos de cálculo de tamaño de muestra para estimar
una media.

Ejemplo 1. En un estudio acerca del gasto en los hogares, se desea conocer el

monto mensual promedio destinado a transportación en una colonia de 600 familias.
Se ha determinado entrevistar una muestra aleatoria de familias que garantice un
error máximo de estimación de $20, con un riesgo α de sobrepasar dicho error de
5%. Se conoce por estudios en poblaciones semejantes que la desviación estándar
del ingreso destinado a transportación es de $100, ¿de qué tamaño debe ser la
muestra?

120 de 357
Tercer semestre
Respuesta
El problema indica que el parámetro de interés es un promedio (monto mensual
promedio destinado a transporte) además brinda la siguiente información:

N=600
B=20
α=0.05
σ=100

Derivado de α=0.05, z es 1.96. El valor z se obtiene aplicando la fórmula de Excel:

[Link](1-0.05/2)

Donde el 0.05 en el interior de la fórmula se refiere al valor de α.

Sustituyendo estos valores en (2) se tiene:

𝑵𝑵𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 =
𝑵𝑵𝑩𝑩𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐

(𝟔𝟔𝟔𝟔𝟔𝟔)(𝟏𝟏. 𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐

𝒏𝒏 =
(𝟔𝟔𝟔𝟔𝟔𝟔)(𝟐𝟐𝟐𝟐)𝟐𝟐 + (𝟏𝟏. 𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐

𝒏𝒏 = 𝟖𝟖𝟖𝟖. 𝟖𝟖

Es decir, se requiere una muestra de 83 hogares para garantizar una estimación que
difiera en $20 del valor real con una confiabilidad de 1-α = 1 - 0.05 = 0.95 = 95%.

121 de 357
Tercer semestre
Ejemplo 2. ¿De qué tamaño sería la muestra en el ejemplo anterior si se
desconociera el tamaño de la población (N) y el resto de los parámetros se
mantuviera igual?

Respuesta
Del ejemplo anterior se tiene la siguiente información:

B=20
α=0.05
σ=100
z=1.96

Al sustituir estos valores en la fórmula (3) se obtiene:

𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 = 𝟐𝟐
𝑩𝑩

(𝟏𝟏. 𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐

𝒏𝒏 =
𝟐𝟐𝟐𝟐𝟐𝟐

𝒏𝒏 = 𝟗𝟗𝟗𝟗. 𝟎𝟎𝟎𝟎

Es decir, se requiere una muestra de 96 hogares para garantizar una estimación que
difiera en $20 del valor real con una confiabilidad de 1-α = 1 - 0.05 = 0.95 = 95%.

122 de 357
Tercer semestre
Estimación del tamaño de muestra considerando el error como una proporción
del parámetro real

Es frecuente encarar situaciones donde se desea fijar el error de estimación como un

porcentaje de la media, por ejemplo 5% o 10%, en este caso el error B es expresado
� donde r es un número entre 0 y 1, al proceder de esta manera:
como 𝒓𝒓𝑿𝑿
𝑩𝑩 = 𝒛𝒛𝝈𝝈𝒙𝒙�
� = 𝒛𝒛𝝈𝝈𝒙𝒙�
𝒓𝒓𝑿𝑿

Si se está trabajando con una población finita de tamaño N:

𝝈𝝈 𝒏𝒏
� = 𝒛𝒛
𝒓𝒓𝑿𝑿 ��𝟏𝟏 − �
√𝒏𝒏 𝑵𝑵

Al despejar n se obtiene:

𝝈𝝈𝟐𝟐 𝒏𝒏
� 𝟐𝟐 = 𝒛𝒛𝟐𝟐
𝒓𝒓𝟐𝟐 𝑿𝑿 �𝟏𝟏 − �
𝒏𝒏 𝑵𝑵

𝝈𝝈𝟐𝟐 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐

� 𝟐𝟐 = 𝒛𝒛𝟐𝟐
𝒓𝒓𝟐𝟐 𝑿𝑿 −
𝒏𝒏 𝑵𝑵

𝝈𝝈𝟐𝟐 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐

𝒛𝒛𝟐𝟐 � 𝟐𝟐 +
= 𝒓𝒓𝟐𝟐 𝑿𝑿
𝒏𝒏 𝑵𝑵

� 𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝝈𝝈𝟐𝟐 𝑵𝑵𝑵𝑵𝟐𝟐 𝑿𝑿
𝟐𝟐
𝒛𝒛 =
𝒏𝒏 𝑵𝑵

123 de 357
Tercer semestre
𝑵𝑵𝑵𝑵𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 =
� 𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝑵𝑵𝑵𝑵𝟐𝟐 𝑿𝑿

� 𝟐𝟐 se obtiene:
Si se divide tanto el numerador como denominador por 𝑿𝑿

𝝈𝝈 𝟐𝟐
𝑵𝑵𝑵𝑵𝟐𝟐 𝑿𝑿�𝟐𝟐
𝒏𝒏 = 𝝈𝝈 𝟐𝟐
𝑵𝑵𝑵𝑵𝟐𝟐 + 𝒛𝒛𝟐𝟐 � 𝟐𝟐
𝑿𝑿

𝑵𝑵𝑵𝑵𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐
𝒏𝒏 = (4)
𝑵𝑵𝑵𝑵𝟐𝟐 +𝒛𝒛𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐

Donde CV es el coeficiente de variación definido como la razón de la desviación

estándar con la media.

En caso de no tener conocimiento del tamaño N de la población:

𝝈𝝈
� = 𝒛𝒛
𝒓𝒓𝑿𝑿
√𝒏𝒏

𝝈𝝈𝟐𝟐
𝟐𝟐 � 𝟐𝟐 𝟐𝟐
𝒓𝒓 𝑿𝑿 = 𝒛𝒛
𝒏𝒏

𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 =
� 𝟐𝟐
𝒓𝒓𝟐𝟐 𝑿𝑿

𝒛𝒛𝟐𝟐
𝒏𝒏 = 𝒓𝒓𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐 (5)

124 de 357
Tercer semestre
Las fórmulas (4) y (5) tienen como ventaja adicional que no es necesario conocer el
valor de los parámetros poblacionales y es suficiente con definir la relación entre la
desviación respecto a la media.

Ejemplo 3. Un auditor desea determinar el pago promedio que una organización

realizó a sus proveedores en el último ejercicio fiscal. El número total de
comprobantes por este concepto es de $4,000 y se desea tener una estimación que
no difiera en más de 10% del valor real con una confiabilidad de 95%. Por su
experiencia, el auditor considera razonable asumir que la desviación estándar de los
pagos es 1.2 veces mayor al promedio.

Respuesta
El problema indica que el parámetro de interés es un promedio (pago promedio a
proveedores), además brinda la siguiente información:

N=4,000
r =10%
1-α=0.95 es decir α= 1- 0.95 = 0.05
CV=1.2

Derivado que α=0.05, z es 1.96.

Al sustituir estos valores en la fórmula (4) se obtiene:

𝑵𝑵𝑵𝑵𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐
𝒏𝒏 =
𝑵𝑵𝑵𝑵𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐

(𝟒𝟒, 𝟎𝟎𝟎𝟎𝟎𝟎)(𝟏𝟏. 𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟏𝟏. 𝟐𝟐)𝟐𝟐

𝒏𝒏 =
(𝟒𝟒, 𝟎𝟎𝟎𝟎𝟎𝟎)(𝟎𝟎. 𝟏𝟏)𝟐𝟐 + (𝟏𝟏. 𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟏𝟏. 𝟐𝟐)𝟐𝟐

125 de 357
Tercer semestre
𝒏𝒏 = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟗𝟗𝟗𝟗
Es decir, se requiere una muestra de 486 comprobantes para garantizar una
estimación que difiera en 10% del promedio real con una confiabilidad de 95%.

Ejemplo 5. ¿De qué tamaño sería la muestra en el ejemplo anterior si se

desconociera el tamaño de la población (N) y el resto de los parámetros se
mantuviera igual?

Respuesta
Del ejemplo anterior se conoce que r =10%, z = 1.96 y CV = 1.2. Sustituyendo estos
valores en la fórmula (5) se obtiene:

𝒛𝒛𝟐𝟐 𝟐𝟐
𝒏𝒏 = 𝑪𝑪𝑪𝑪
𝒓𝒓𝟐𝟐

𝟏𝟏. 𝟗𝟗𝟗𝟗𝟐𝟐
𝒏𝒏 = 𝟏𝟏. 𝟐𝟐𝟐𝟐
𝟎𝟎. 𝟏𝟏𝟐𝟐

𝒏𝒏 = 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟏𝟏𝟏𝟏

Es decir, se requiere una muestra de 553 comprobantes para garantizar una

estimación que difiera en 10% del promedio real con una confiabilidad de 95%.

126 de 357
Tercer semestre
3.5. Estimación de una media
con muestras pequeñas
En la sección anterior, se mostró cómo realizar estimaciones de la media con
muestras grandes; sin embargo, en la práctica es común enfrentar situaciones donde
el tamaño de la muestra es menor a 30 elementos. ¿Cómo realizar estimaciones
para este caso? Sabemos que la distribución de la media muestral tiende a ser una
normal conforme aumenta el tamaño de muestra; para muestras pequeñas, donde
además se desconoce la varianza poblacional, la distribución del estimador muestral
se asemeja: puede modelarse con una distribución t de Student, con n – 1 grados de
libertad. La distribución t se aproxima a una normal estándar en la medida que
aumenta el tamaño de la muestra.

La tabla 5 presenta los elementos para realizar una estimación de la media

poblacional con muestras pequeñas.

Tabla 5. Elementos para realizar una estimación de la media (promedio)

poblacional con muestras pequeñas

Fórmula
Tamaño
Parámetro Desviación
Estimador de la Intervalo de Estimador
población estándar del
muestra confianza puntual estimador

𝒔𝒔 𝒔𝒔
Promedio ∑ 𝒙𝒙𝒊𝒊 𝒔𝒔𝒙𝒙� =
�
𝒙𝒙 n<30 � ± 𝒕𝒕
𝑰𝑰𝑰𝑰 = 𝒙𝒙 �=
𝒙𝒙 √𝒏𝒏
μ √𝒏𝒏 𝒏𝒏

127 de 357
Tercer semestre
La tabla 5 tiene la misma descripción que la tabla 4, con la diferencia que el nivel de
confianza está expresado en el cuantil t de una distribución t de Student con n – 1
𝜶𝜶 𝜶𝜶
grados de libertad que parte la curva en dos áreas, una con valor 1-𝟐𝟐 y la otra de 𝟐𝟐,

siendo α un valor entre 0 y 1.

Para calcular el valor de t, se puede recurrir a tablas o algún paquete. A

continuación, se muestra cómo calcularlo en MS-Excel.

Excel presenta esta función:

[Link](probabilidad, grados_de_libertad
𝜶𝜶
• En esta función, el parámetro probabilidad se refiere a 𝟐𝟐 y el resultado es el cuantil
𝜶𝜶 𝜶𝜶
t, que separa la curva en dos regiones, una con área 1-𝟐𝟐 y la otra de 𝟐𝟐 , siendo α un
valor entre 0 y 1.)

En la figura 9, se ilustra el valor obtenido con la fórmula [Link](α/2, n-1)

Figura 9. Valor calculado con la fórmula de Excel [Link](α/2, n-1)

En la figura anterior, el valor que se encuentra encerrado en el círculo rojo es el

resultado de la fórmula.

128 de 357
Tercer semestre
Supóngase que se desea realizar una estimación con un nivel de confianza de 90%
con una muestra de 10 elementos.

El resultado se divide Se calculan los

Primero se calcula α: 𝜶𝜶 𝟎𝟎.𝟏𝟏 grados de libertad
entre 2: = =
α = 1 – 0.9 = 0.1 𝟐𝟐 𝟐𝟐 (g.l.): g.l.= n – 1 = 10
𝟎𝟎. 𝟎𝟎𝟎𝟎 –1=9

Se sustituyen en la
De esta forma, se
fórmula:
obtiene el valor
[Link](0.05, 9)
buscado.
= 2.26

Ejemplos de estimación de la media poblacional con muestras pequeñas

A continuación, se muestran algunos ejemplos de esta estimación:

Primer ejemplo

1. Se desea estimar el número de horas

promedio de capacitación de 350 empleados de
una empresa fabricante de refrescos. Ante la
dificultad de recabar información, se eligió una
muestra de 10 empleados del área operativa y
se registraron las horas de capacitación
recibidas durante el mes de julio.

129 de 357
Tercer semestre
La siguiente tabla muestra la información.

Horas de capacitación de 10 empleados durante el mes de julio

Horas de
Empleado capacitación
Julio
1 21
2 40
3 19
4 30
5 40
6 36
7 28
8 28
9 33
10 28

a. Realizar una estimación puntual del promedio de horas de capacitación de los

empleados recibidas en el mes de julio.
b. Realizar una estimación por intervalo para el promedio de capacitación de los
empleados recibida en el mes de julio con un nivel de confianza del 95%.
c. Interpretar los resultados.

130 de 357
Tercer semestre
Respuestas
1. Determinar el estimador del 2. Calcular el estimador puntual a través de la
parámetro 𝒙𝒙
� fórmula correspondiente:
∑ 𝒙𝒙𝒊𝒊
�=
𝒙𝒙
𝒏𝒏
𝟐𝟐𝟐𝟐 + 𝟒𝟒𝟒𝟒 + ⋯ + 𝟑𝟑𝟑𝟑 + 𝟐𝟐𝟐𝟐
�=
𝒙𝒙
𝟏𝟏𝟏𝟏
𝟑𝟑𝟑𝟑𝟑𝟑
�=
𝒙𝒙 = 𝟑𝟑𝟑𝟑. 𝟑𝟑
𝟏𝟏𝟏𝟏
3. Determinar la fórmula para 4. Establecer el nivel de confianza para calcular el
realizar el cálculo de la valor del punto de corte a través de α:
estimación por intervalo: Nivel de confianza = 95%, es decir, 0.95
𝒔𝒔 Determinar el valor de α:
� ± 𝒕𝒕
𝑰𝑰𝑰𝑰 = 𝒙𝒙
√𝒏𝒏
α = 1 – nivel de confianza
α = 1 – 0.95
α = 0.05
Calcular el valor del punto de corte t con la función
Excel:
[Link](α /2, n-1)
[Link](0.05/2, 10-1)
[Link](0.025, 9)
t = 2.685 = 2.69
5. Sustituir los valores en la 6. Sustituir los valores en la fórmula general para
fórmula general para calcular el calcular el límite inferior (LI) y límite superior (LS)
límite inferior (LI) y límite superior del intervalo:
(LS) del intervalo: 𝒔𝒔
� ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
𝒔𝒔 √𝒏𝒏
𝑰𝑰𝑰𝑰 = �
𝒙𝒙 ± 𝒁𝒁
√𝒏𝒏 𝑰𝑰𝑰𝑰 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 ± 𝟐𝟐. 𝟔𝟔𝟔𝟔 ∙ 𝟐𝟐. 𝟐𝟐𝟐𝟐
𝑰𝑰𝑰𝑰 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 ± 𝟐𝟐. 𝟔𝟔𝟔𝟔 ∙ 𝟐𝟐. 𝟐𝟐𝟐𝟐 𝑰𝑰𝑰𝑰 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 ± 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑰𝑰𝑰𝑰 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 ± 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎 𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 − 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 − 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐 𝑳𝑳𝑳𝑳 = 𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐
𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 + 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎 𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 + 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑𝟑𝟑 𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑𝟑𝟑

131 de 357
Tercer semestre
7. Construir el intervalo de confianza:
𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑. 𝟑𝟑𝟑𝟑)
Con base en la estimación puntual, el promedio de horas de capacitación fue de 30.3
horas en el mes de julio.
De acuerdo con la estimación por intervalo, el promedio de horas de capacitación
recibidas en el mes de julio por los empleados del área operativa de la empresa de
refrescos está entre 24.25 y 36.34 horas, con un 95% de confianza.

24.2 30.3 36.4

LI LS

Segundo ejemplo

Con la intención de producir propaganda destinada a jóvenes de 18 años, en cierto

estado del país con 500 poblados, se extrajo una muestra de 16 localidades, donde
se realizó un censo de jóvenes residentes de 18 años. La siguiente tabla muestra la
población de 18 años en 16 localidades.
Población de
Localidad
18 años
1 255,226
2 245,317
3 251,149

4 259,036
5 269,143
6 279,054
7 286,484

132 de 357
Tercer semestre
8 292,889
9 299,688
10 305,969
11 314,557
12 316,589
13 324,413
14 330,382
15 337,431
16 342,457

a. Realizar una estimación puntual del promedio de jóvenes de 18 años.

b. Realizar una estimación por intervalo para el promedio de jóvenes de 18 años
con un nivel de confianza del 99%.
c. Interpretar los resultados.

Respuestas

1. Determinar el parámetro a estimar: 2. Determinar el estimador del parámetro:

Promedio μ �
𝒙𝒙

3. Calcular el estimador puntual a 4. Determinar la fórmula para realizar el

través de la fórmula correspondiente: cálculo de la estimación por intervalo:
∑ 𝒙𝒙𝒊𝒊
�=
𝒙𝒙 𝒔𝒔
𝒏𝒏 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
�
𝒙𝒙 √𝒏𝒏
𝟐𝟐𝟐𝟐𝟐𝟐, 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑 + ⋯ + 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟒𝟒𝟒𝟒𝟒𝟒 + 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟒𝟒𝟒𝟒𝟒𝟒
=
𝟏𝟏𝟏𝟏
𝟒𝟒, 𝟕𝟕𝟕𝟕𝟕𝟕, 𝟕𝟕𝟕𝟕𝟕𝟕
�=
𝒙𝒙 = 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟓𝟓
𝟏𝟏𝟏𝟏
5. Establecer el nivel de confianza 6. Determinar la fórmula para calcular la
para calcular el valor del punto de desviación estándar del estimador:
corte a través de α: 𝒔𝒔
𝒔𝒔𝒙𝒙� =
Nivel de confianza = 99%, es decir, √𝒏𝒏
0.99 Calcular la desviación estándar s y definir
el valor de n:
Determinar el valor de α:
n = 16
α = 1 – 0.99
�)𝟐𝟐
∑(𝒙𝒙𝒊𝒊 − 𝒙𝒙
α = 0.01 𝒔𝒔 = �
𝒏𝒏 − 𝟏𝟏
Calcular el valor del punto de corte t

133 de 357
Tercer semestre
utilizando la función Excel:
DISTR. T. INV (α /2, n-1)
DISTR.T. INV (0.01/2, 16-1)
DISTR. T. INV (0.005,15)
𝟏𝟏𝟏𝟏, 𝟒𝟒𝟒𝟒𝟒𝟒, 𝟒𝟒𝟒𝟒𝟒𝟒, 𝟔𝟔𝟔𝟔𝟔𝟔
𝒔𝒔 = �
t = 3.286 = 2.29 𝟏𝟏𝟏𝟏
𝒔𝒔 = �𝟏𝟏𝟏𝟏𝟏𝟏, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖, 𝟕𝟕𝟕𝟕𝟕𝟕. 𝟎𝟎𝟎𝟎
𝒔𝒔 = 𝟑𝟑𝟑𝟑, 𝟎𝟎𝟎𝟎𝟎𝟎. 𝟖𝟖𝟖𝟖

7. Calcular la desviación del estimador 8. Sustituir los valores en la fórmula para

a través de la fórmula correspondiente: calcular el límite inferior (LI) y límite
𝒔𝒔 superior (LS) del intervalo (IC):
𝒔𝒔𝒙𝒙� =
√𝒏𝒏 𝒔𝒔
𝟑𝟑𝟑𝟑, 𝟎𝟎𝟎𝟎𝟎𝟎. 𝟖𝟖𝟖𝟖 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
𝒔𝒔𝒙𝒙� = √𝒏𝒏
√𝟏𝟏𝟏𝟏 𝑰𝑰𝑰𝑰 = 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟓𝟓 ± 𝟑𝟑. 𝟐𝟐𝟐𝟐 ∙ 𝟖𝟖, 𝟎𝟎𝟎𝟎𝟎𝟎. 𝟕𝟕𝟕𝟕
𝟑𝟑𝟑𝟑, 𝟎𝟎𝟎𝟎𝟎𝟎. 𝟖𝟖𝟖𝟖
𝒔𝒔𝒙𝒙� = 𝑰𝑰𝑰𝑰 = 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟓𝟓 ± 𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟗𝟗𝟗𝟗
𝟒𝟒
𝒔𝒔𝒙𝒙� = 𝟖𝟖, 𝟎𝟎𝟎𝟎𝟎𝟎. 𝟕𝟕𝟕𝟕 𝑳𝑳𝑳𝑳 = 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟓𝟓 − 𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟗𝟗𝟗𝟗
𝑳𝑳𝑰𝑰 = 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟎𝟎𝟎𝟎𝟎𝟎. 𝟓𝟓𝟓𝟓𝟓𝟓
𝑳𝑳𝑳𝑳 = 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟓𝟓 + 𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟗𝟗𝟗𝟗
𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟕𝟕𝟕𝟕𝟕𝟕. 𝟒𝟒𝟒𝟒𝟒𝟒

9. Construir el intervalo de confianza:

𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟐𝟐𝟐𝟐𝟐𝟐, 𝟎𝟎𝟎𝟎𝟎𝟎, 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟕𝟕𝟕𝟕𝟕𝟕)
Con base en la estimación puntual, el promedio de jóvenes de 18 años por
localidad es de 294 362.
De acuerdo con la estimación por intervalo, el promedio de jóvenes de 18 años por
localidad se encuentra entre 268 022 y 320 701, con un 99% de confianza.

LI LS

134 de 357
Tercer semestre
3.6. Estimación de
una proporción
Como se ha comentado, la media muestral se acerca a una distribución normal que
tiene como valor esperado el promedio poblacional, y su varianza es la varianza
poblacional entre el tamaño de la muestra. Una proporción muestral es, en cierta
manera, un promedio donde los valores son ceros y unos, por lo que su distribución
se acerca a una normal cuya media es la proporción poblacional, y la varianza es la
proporción por su complemento entre el tamaño de muestra.

La estimación de una proporción poblacional es parecida a la realizada

para una media. Se debe aclara que, si el producto de la proporción
muestral por el tamaño de muestra es al menos cinco, entonces el uso
de una distribución normal es adecuado; en caso contrario, se deberán
utilizar otras técnicas de estimación diferentes a las de este curso.

La tabla 6 presenta los elementos requeridos para efectuar la estimación de una

proporción.

Tabla 6. Elementos requeridos para realizar una estimación de la proporción

poblacional

Fórmula
Parámetro Desviación
Estimador Intervalo de Estimador
población estándar del
confianza puntual
estimador
𝒙𝒙𝒊𝒊 𝒑𝒑𝒑𝒑
𝒑𝒑 = 𝒔𝒔𝒑𝒑 = �
Proporción 𝒑𝒑𝒑𝒑 𝒏𝒏 𝒏𝒏
p 𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒁𝒁�
P 𝒏𝒏
𝒙𝒙𝒊𝒊 = 𝟎𝟎 𝒐𝒐 𝟏𝟏 q=1-p

135 de 357
Tercer semestre
A continuación, se presenta un ejemplo de estimación de una proporción poblacional
con la información de una muestra.

Se retoma el primer ejemplo de la sección de estimación de medias para muestras

grandes.

El director financiero de una agencia de

publicidad desea conocer el gasto promedio
de la organización debido a que está
preocupado por el nivel de gasto registrado
recientemente. Entonces, realiza una auditoría
a 30 facturas elegidas al azar. La información
de las erogaciones seleccionadas se muestra
a continuación.

Gasto en Gasto en
Factura Factura
miles miles
1 99 16 96
2 15 17 79
3 59 18 71
4 14 19 56
5 72 20 51
6 59 21 72
7 68 22 25
8 22 23 71
9 40 24 52
10 79 25 99
11 97 26 70
12 82 27 82
13 93 28 47
14 76 29 35
15 48 30 93

a. Realizar una estimación puntual de la proporción de gastos mayores a $80 mil.

b. Realizar una estimación por intervalo para la proporción de gastos mayores a
$80 mil con un nivel de confianza del 95%.

136 de 357
Tercer semestre
c. Interpretar los resultados.

Respuestas

1. Determinar el parámetro a estimar: 2. Determinar el estimador del parámetro:

Proporción P P
3. Calcular el estimador puntual a través 4. Determinar la fórmula para realizar el
de la fórmula correspondiente: cálculo de la estimación puntual del
∑ 𝒙𝒙𝒊𝒊 estimador:
𝒑𝒑 =
𝒏𝒏 𝒑𝒑𝒑𝒑
Se definen n y ∑ 𝒙𝒙𝒊𝒊 : 𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒁𝒁�
𝒏𝒏
n = 30 Establecer el nivel de confianza para
∑ 𝒙𝒙𝒊𝒊 : valores mayores a 80 calcular el valor del punto de corte a través
𝒙𝒙𝒊𝒊 = 𝟖𝟖 del valor de α:
Gasto en Gasto en Nivel de confianza = 95%, es decir, 0.95
Factura Factura
miles miles
1 99 16 96 Determinar α:
2 15 17 79 α = 1 – nivel de confianza
3 59 18 71
4 14 19 56 α = 1 – 0.95
5 72 20 51
α = 0.05
6 59 21 72
7 68 22 25 Calcular el valor del punto de corte z con la
8 22 23 71
función Excel:
9 40 24 52
10 79 25 99 DISTR. NORM. ESTAND. INV (1-α/2)
11 97 26 70
[Link]. ESTAND. INV (1-0.05/2)
12 82 27 82
13 93 28 47 Z = 1.959 = 1.96
14 76 29 35
15 48 30 93
𝟖𝟖
𝒑𝒑 =
𝟑𝟑𝟑𝟑
𝒑𝒑 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐

137 de 357
Tercer semestre
6. Determinar la fórmula para calcular la 7. Calcular la desviación del estimador a
desviación estándar del estimador: través de la fórmula correspondiente:
𝒑𝒑𝒑𝒑
𝒔𝒔𝒑𝒑 = � 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 ∙ 𝟎𝟎. 𝟕𝟕𝟕𝟕𝟕𝟕
𝒏𝒏 𝒔𝒔𝒑𝒑 = �
𝟑𝟑𝟑𝟑
Donde 𝒑𝒑 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐
𝒒𝒒 = 𝟏𝟏 − 𝒑𝒑 𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝒔𝒔𝒑𝒑 = �
𝒒𝒒 = 𝟏𝟏 − 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 𝟑𝟑𝟑𝟑

𝒒𝒒 = 𝟎𝟎. 𝟕𝟕𝟕𝟕𝟕𝟕 𝒔𝒔𝒑𝒑 = √𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎

𝒏𝒏 = 𝟑𝟑𝟑𝟑 𝒔𝒔𝒑𝒑 = 𝟎𝟎. 𝟖𝟖𝟖𝟖𝟖𝟖

8. Sustituir los valores en la fórmula para calcular el límite inferior (LI) y límite superior
(LS) del intervalo de confianza (IC):
𝒑𝒑𝒑𝒑
𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒁𝒁�
𝒏𝒏
𝑰𝑰𝑰𝑰 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 ± 𝟏𝟏. 𝟗𝟗𝟗𝟗 ∙ 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑰𝑰𝑰𝑰 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 ± 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
𝑳𝑳𝑳𝑳 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐

9. Construir el intervalo de confianza:

𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟎𝟎. 𝟐𝟐𝟐𝟐, 𝟎𝟎. 𝟐𝟐𝟐𝟐)
Con base en la estimación puntual, la proporción de gastos mayores a $80 mil en la
organización es de 26%.
De acuerdo con la estimación por intervalo, la proporción de gastos mayores a $80 mil
en la organización se encuentra entre el 25% y 28%, con un 95% de confianza.

0.25 0.26 0.28

LI LS

138 de 357
Tercer semestre
3.6.1. Determinación del tamaño de muestra para
estimar una proporción

Como se mencionó en la unidad dos, la proporción es un caso de un promedio donde

los valores son ceros y unos. En la sección 2.3 se mostró que la proporción muestral
para un tamaño de muestra n considerablemente grande se aproxima a una
𝑷𝑷∙(𝟏𝟏−𝑷𝑷)
distribución normal con media P y varianza 𝒏𝒏
. Si se busca calcular un tamaño

de muestra que garantice una estimación de P con un error máximo B con

confiabilidad 1-α, se parte de la siguiente igualdad:
𝑩𝑩 = 𝒛𝒛𝝈𝝈𝒑𝒑
𝑩𝑩𝟐𝟐 = 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐𝒑𝒑
Para poblaciones finitas, se aproxima a:
𝒛𝒛𝟐𝟐 𝒑𝒑 ∙ (𝟏𝟏 − 𝒑𝒑) 𝒏𝒏
𝑩𝑩𝟐𝟐 ≅ �𝟏𝟏 − �
𝒏𝒏 𝑵𝑵

Al despejar n se obtiene:
𝑵𝑵𝒛𝒛𝟐𝟐 𝒑𝒑𝒑𝒑
𝒏𝒏 = (6)
𝑵𝑵𝑩𝑩𝟐𝟐 +𝒛𝒛𝟐𝟐 𝒑𝒑𝒑𝒑

Donde q = 1-p

Obsérvese que las fórmulas (2) y (6) de la sección 3.4.1 son semejantes, sólo
cambia σ2 por pq.

Sustituyendo pq en vez de σ2, la fórmula (3) de la sección 3.4.1 queda así:

𝒛𝒛𝟐𝟐 𝒑𝒑𝒑𝒑
𝒏𝒏 = (7)
𝑩𝑩𝟐𝟐

139 de 357
Tercer semestre
Que es la manera de calcular el tamaño de muestra cuando se desconoce el tamaño
𝒏𝒏
de la población o la proporción 𝑵𝑵 < 𝟎𝟎. 𝟎𝟎𝟎𝟎.

Como sugerencia, cuando se desconoce la proporción poblacional y no se cuenta

con información muestral, considerar que P = 0.5.

Ejemplo 1. De un listado de 8,500 establecimientos comerciales se desea extraer

una muestra para conocer la proporción de negocios que aplica el proceso
administrativo. Se desea que la estimación no difiera del valor real en más de diez
puntos porcentuales con una confiabilidad de 95%. ¿De qué tamaño debe ser la
muestra?

Respuesta
Se desea estimar una proporción (proporción de negocios que aplica el proceso
administrativo), la información que proporciona el problema es:

N = 8,500
B = 10% = 0.1
1-α = 0.95, es decir, α=0.05

En consecuencia, z = 1.96. Como no se cuenta con información de P se asumirá que

es 0.5.

Aplicando la fórmula (6) se llega al resultado.

(𝟖𝟖, 𝟓𝟓𝟓𝟓𝟓𝟓)(𝟏𝟏. 𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟎𝟎. 𝟓𝟓)(𝟎𝟎. 𝟓𝟓)

𝒏𝒏 =
(𝟖𝟖, 𝟓𝟓𝟓𝟓𝟓𝟓)(𝟎𝟎. 𝟏𝟏)𝟐𝟐 + (𝟏𝟏. 𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟎𝟎. 𝟓𝟓)(𝟎𝟎. 𝟓𝟓)

𝒏𝒏 = 𝟗𝟗𝟗𝟗. 𝟗𝟗𝟗𝟗

140 de 357
Tercer semestre
Es decir, se requiere una muestra de 95 establecimientos para garantizar una
estimación que difiera en 10% de la proporción real con una confiabilidad de 95%.

Ejemplo 2. ¿De qué tamaño sería la muestra en el ejemplo anterior si se

desconociera el tamaño de la población (N) y el resto de los parámetros se
mantuviera igual?

Respuesta
Del ejemplo anterior se conoce que B=10%, z= 1.96 y P = 0.5. Sustituyendo estos
valores en la fórmula (7) se obtiene:

(𝟏𝟏. 𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟎𝟎. 𝟓𝟓)(𝟎𝟎. 𝟓𝟓)

𝒏𝒏 =
𝟎𝟎. 𝟏𝟏𝟐𝟐

𝒏𝒏 = 𝟗𝟗𝟗𝟗. 𝟎𝟎𝟎𝟎

Es decir, se requiere una muestra de 96 establecimientos para garantizar una

estimación que difiera en 10% de la proporción real con una confiabilidad de 95%.
Obsérvese que los resultados de los ejemplos 1 y 2 son semejantes, esto debido a
𝒏𝒏 𝟗𝟗𝟗𝟗
que la proporción 𝑵𝑵 = 𝟖𝟖,𝟓𝟓𝟓𝟓𝟓𝟓 = 𝟎𝟎. 𝟎𝟎𝟎𝟎 < 𝟎𝟎. 𝟎𝟎𝟎𝟎.

141 de 357
Tercer semestre
3.7. Otros intervalos de confianza

En los subtemas anteriores, se realizaron estimaciones de la media y proporción

poblacionales, ahora, se mostrará cómo hacer estimaciones de la varianza
poblacional a partir de una muestra.

Intervalo de confianza para la varianza de la población

Para estimar el valor de la varianza poblacional a partir de

una muestra, se utilizará el siguiente resultado:

(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
𝟐𝟐
~ ᵡ𝟐𝟐𝒏𝒏−𝟏𝟏
𝝈𝝈

(𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐
Este resultado indica que el cociente 𝝈𝝈𝟐𝟐
tiene una distribución ji cuadrada con n –
1 grados de libertad. De esta manera, para construir un intervalo de confianza para la
varianza poblacional, se empleará una distribución ji cuadrada con n – 1 grados de
libertad.

Para construir un intervalo de confianza que contenga a la varianza poblacional, se

deberán encontrar dos cuantiles de una distribución ji cuadrada tal que el área
contenida entre ambos puntos sea 1– 𝜶𝜶, donde α es un valor entre 0 y 1, tal como lo
muestra la figura 10.

142 de 357
Tercer semestre
Figura 10. Ubicación de los cuantiles de una distribución ji cuadrada que
permitan construir un intervalo que contenga a 𝝈𝝈𝟐𝟐
con un nivel de confianza 1-α

La figura anterior ilustra la ubicación de los cuantiles que encierran una región cuya
área es 1 – α. El valor superior ( ᵡ𝟐𝟐 𝒔𝒔 ) separa la curva en dos regiones, donde la
𝜶𝜶
derecha tiene un área de 𝟐𝟐). El valor inferior (ᵡ𝟐𝟐 𝒊𝒊 ), por su parte, separa la curva en dos
𝛼𝛼
regiones, donde la izquierda tiene un área de 2
.

Para obtener estos valores, se puede recurrir a tablas o utilizar un software. A

continuación, se explica cómo calcular estos cuantiles en MS-Excel.

En Excel se emplea la fórmula:

[Link] (𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑, 𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈𝒈_𝒅𝒅𝒅𝒅_𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍)

• El parámetro de probabilidad se refiere a la región que se acumula a la derecha

del cuantil, y grados_de_libertad es el tamaño de la muestra menos uno.

Supóngase que se desea encontrar los puntos críticos que garantizan un nivel de
confianza del 90% con una muestra de 30 elementos.

143 de 357
Tercer semestre
Se establece el nivel de confianza:
Nivel de confianza = 90%, es decir, 0.90
Se determina α:
α = 1 – nivel de confianza
α = 1 – 0.90
α = 0.1
Se divide alfa entre 2:
𝟎𝟎. 𝟏𝟏
= 𝟎𝟎. 𝟎𝟎𝟎𝟎
𝟐𝟐

𝜶𝜶
Se calcula el punto que corta la curva en dos regiones: una de área 𝟐𝟐 (región
𝜶𝜶
derecha) y otra de 𝟏𝟏 − 𝟐𝟐 (región izquierda), con la fórmula:
𝜶𝜶
[Link] ( 𝟐𝟐 , n-1)
𝟎𝟎.𝟏𝟏
[Link] ( 𝟐𝟐 , 30-1)

[Link] (0.05,29)
𝟐𝟐
ᵡ𝐒𝐒 = 42.556

La figura 11 representa el punto que se está obteniendo.

Figura 11. Ilustración del punto que se obtiene con la fórmula

[Link] (α/2, n – 1)

144 de 357
Tercer semestre
En la figura 11 se representa el resultado obtenido al aplicar la fórmula. Nótese que
𝜶𝜶
el cuantil divide la curva en dos regiones: la de la derecha tiene un área de 𝟐𝟐 ; y la de
𝜶𝜶
la izquierda, de 𝟏𝟏 − 𝟐𝟐 .

A continuación se calcula el punto que corta la curva en dos regiones: una de área
𝜶𝜶 𝜶𝜶
𝟏𝟏 −
𝟐𝟐
(región derecha) y otra de 𝟐𝟐
(región izquierda), con la fórmula:

𝛂𝛂
[Link] (𝟏𝟏 − 𝟐𝟐 , n-1)

[Link] (0.975, 30-1)

[Link] (0.975,29)

𝐗𝐗 𝐢𝐢 𝟐𝟐 = 16.047

La figura 12 ilustra el punto que se obtiene.

Figura 12. Ilustración del punto que se obtiene con la fórmula

[Link] (1-α/2, n-1)

145 de 357
Tercer semestre
La figura anterior ilustra el resultado al aplicar la fórmula. Nótese que el cuantil divide
𝜶𝜶
la curva en dos regiones: la de la derecha tiene un área de 𝟏𝟏 − 𝟐𝟐 ; y la de la izquierda,
𝜶𝜶
de 𝟐𝟐 .

Obtenidos los cuantiles, se procede a plantear la siguiente desigualdad:

(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
𝑿𝑿𝒊𝒊 𝟐𝟐 ≤ ≤ 𝑿𝑿𝒔𝒔 𝟐𝟐
𝝈𝝈𝟐𝟐
Despejando el parámetro poblacional 𝝈𝝈𝟐𝟐 , el intervalo queda de la siguiente manera:

(𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐 𝟐𝟐
(𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐
≤ 𝝈𝝈 ≤
𝑿𝑿𝒔𝒔 𝟐𝟐 𝑿𝑿𝒊𝒊 𝟐𝟐
La tabla 7 presenta los elementos requeridos para realizar una estimación de
intervalo de una varianza poblacional.

Tabla 7. Elementos requeridos para realizar una estimación de intervalo de una

varianza poblacional

Fórmula
Parámetro
Estimador Intervalo de Estimador Varianza
población
Confianza puntual muestral
(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
𝑳𝑳𝑳𝑳 =
𝑿𝑿𝒔𝒔 𝟐𝟐 (𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
Varianza � 𝟐𝟐 =
𝝈𝝈 �)𝟐𝟐
∑(𝒙𝒙𝒊𝒊 − 𝒙𝒙
� 𝟐𝟐
𝝈𝝈 𝑿𝑿𝟐𝟐 𝑺𝑺𝟐𝟐 =
𝝈𝝈𝟐𝟐 𝒏𝒏 − 𝟏𝟏
(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
𝑳𝑳𝑳𝑳 =
𝑿𝑿𝒊𝒊 𝟐𝟐

A diferencia de los estimadores de intervalo empleados en secciones anteriores, para

el intervalo de una varianza poblacional se calculan directamente los límites del
intervalo sin necesidad de utilizar el estimador puntual.

A continuación, se ejemplifica cómo estimar un intervalo para la varianza poblacional.

146 de 357
Tercer semestre
Un parque de diversiones es visitado
en promedio por 50 000 personas al
mes. Con la finalidad de diseñar una
promoción que incentive el consumo
de productos ofrecidos por el parque,
el gerente quiere conocer la
variabilidad del gasto de las familias
que lo visitan en un día. Para tal
efecto, se entrevistó a 30 familias
elegidas al azar y se registró su consumo durante su estadía.

En la siguiente tabla se muestra la información recabada.

Gasto al Gasto al
Factura Factura
día día
1 645 16 470
2 1,177 17 1,264
3 524 18 436
4 1,192 19 645
5 746 20 409
6 803 21 709
7 1,612 22 1,009
8 382 23 1,180
9 571 24 1,410
10 697 25 377
11 792 26 1,283
12 442 27 1,321
13 959 28 1,534
14 881 29 675
15 1,506 30 1,625

a. Realizar una estimación por intervalo para la desviación poblacional con un

nivel de confianza del 90%.
b. Interpretar los resultados.

147 de 357
Tercer semestre
Respuestas:

Determinar la fórmula para realizar Después se calcula el valor de la varianza

la estimación por intervalo de la muestral 𝑺𝑺𝟐𝟐 y los valores de 𝑿𝑿𝒊𝒊 𝟐𝟐y 𝑿𝑿𝒔𝒔 𝟐𝟐para
varianza poblacional: poder obtener los límites inferior y superior.
(𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐 (𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐 Varianza muestral 𝑺𝑺𝟐𝟐 :
𝟐𝟐 ≤ 𝝈𝝈𝟐𝟐 ≤ 𝟐𝟐 �)𝟐𝟐
∑(𝒙𝒙𝒊𝒊 − 𝒙𝒙
𝑿𝑿𝒔𝒔 𝑿𝑿𝒊𝒊 𝑺𝑺𝟐𝟐 =
𝒏𝒏 − 𝟏𝟏
Para realizar el cálculo, se De esta manera:
requiere calcular previamente el 𝑺𝑺𝟐𝟐 = (𝟔𝟔𝟔𝟔𝟔𝟔 − 𝟗𝟗𝟗𝟗𝟗𝟗) + (𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟗𝟗𝟗𝟗𝟗𝟗) 𝟑𝟑𝟑𝟑
𝟐𝟐 𝟐𝟐
+ ⋯ + (𝟔𝟔𝟔𝟔𝟔𝟔 − 𝟗𝟗𝟗𝟗𝟗𝟗)𝟐𝟐 + (𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔 − 𝟗𝟗𝟗𝟗𝟗𝟗)𝟐𝟐
− 𝟏𝟏
promedio de los datos de la 𝟐𝟐
𝟒𝟒, 𝟕𝟕𝟕𝟕𝟕𝟕, 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟖𝟖
𝑺𝑺 =
muestra: 𝟐𝟐
𝟐𝟐𝟐𝟐
∑ 𝒙𝒙𝒊𝒊 𝑺𝑺 = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟑𝟑𝟑𝟑
�=
𝒙𝒙 Establecer el nivel de confianza para calcular
𝒏𝒏
𝟔𝟔𝟔𝟔𝟔𝟔 + 𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏 + ⋯ + 𝟔𝟔𝟔𝟔𝟔𝟔 + 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 los puntos de corte:
�
𝒙𝒙 =
𝟑𝟑𝟑𝟑 Nivel de confianza = 90%, es decir, 0.90
𝟐𝟐𝟐𝟐, 𝟐𝟐𝟐𝟐𝟐𝟐
�=
𝒙𝒙
𝟑𝟑𝟑𝟑
� = 𝟗𝟗𝟗𝟗𝟗𝟗
𝒙𝒙
Determinar el valor de α: Calcular el valor del punto de corte𝑿𝑿𝒊𝒊 𝟐𝟐 con la
α = 1 – nivel de confianza función de MS-Excel:
𝛂𝛂
α = 1 – 0.90 [Link] (𝟏𝟏 − 𝟐𝟐 , n-1)
α = 0.1 [Link] (0.975, 30-1)
Calcular el valor del punto de [Link] (0.975,29)
corte𝑿𝑿𝒔𝒔 𝟐𝟐 con la función de MS- 𝐗𝐗 𝐢𝐢 𝟐𝟐 = 16.047
Excel: Calcular el límite inferior (LI) y superior (LS) del
𝜶𝜶
[Link] ( 𝟐𝟐 , n-1) intervalo (IC):
𝟎𝟎.𝟏𝟏
[Link] ( 𝟐𝟐 , 30-1) n = 30
[Link] (0.05,29) 𝐒𝐒 𝟐𝟐 = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟑𝟑𝟑𝟑
𝐗𝐗 𝐒𝐒 𝟐𝟐 = 42.556 𝐗𝐗 𝐢𝐢 𝟐𝟐 = 𝟏𝟏𝟏𝟏. 𝟎𝟎𝟎𝟎
𝐗𝐗 𝐬𝐬 𝟐𝟐 = 42.55
(𝐧𝐧 − 𝟏𝟏)𝐒𝐒 𝟐𝟐
𝛔𝛔𝐢𝐢 𝟐𝟐 =
𝐗𝐗 𝐢𝐢 𝟐𝟐
Límite inferior: Límite superior:
(𝟑𝟑𝟑𝟑 − 𝟏𝟏)(𝟒𝟒𝟒𝟒𝟒𝟒. 𝟑𝟑𝟑𝟑) (𝟑𝟑𝟑𝟑 − 𝟏𝟏)(𝟒𝟒𝟒𝟒𝟒𝟒. 𝟑𝟑𝟑𝟑)
𝑳𝑳𝑳𝑳 = 𝑳𝑳𝑳𝑳 =
𝟒𝟒𝟒𝟒. 𝟓𝟓𝟓𝟓 𝟒𝟒𝟒𝟒. 𝟓𝟓𝟓𝟓
(𝟐𝟐𝟐𝟐)(𝟏𝟏𝟏𝟏𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔. 𝟒𝟒𝟒𝟒𝟒𝟒) (𝟐𝟐𝟐𝟐)(𝟏𝟏𝟏𝟏𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔. 𝟒𝟒𝟒𝟒𝟒𝟒)
𝑳𝑳𝑳𝑳 = 𝑳𝑳𝑳𝑳 =
𝟒𝟒𝟒𝟒. 𝟓𝟓𝟓𝟓 𝟏𝟏𝟏𝟏. 𝟎𝟎𝟎𝟎

148 de 357
Tercer semestre
𝟒𝟒, 𝟕𝟕𝟕𝟕𝟕𝟕, 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟖𝟖 𝟒𝟒, 𝟕𝟕𝟕𝟕𝟕𝟕, 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟖𝟖
𝑳𝑳𝑳𝑳 = 𝑳𝑳𝑳𝑳 =
𝟒𝟒𝟒𝟒. 𝟓𝟓𝟓𝟓 𝟏𝟏𝟏𝟏. 𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟖𝟖𝟖𝟖𝟖𝟖. 𝟎𝟎𝟎𝟎 𝑳𝑳𝑳𝑳 = 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟗𝟗𝟗𝟗𝟗𝟗. 𝟔𝟔𝟔𝟔𝟔𝟔
Calcular la raíz cuadrada para Calcular la raíz cuadrada para obtener el valor
obtener el valor inferior de la superior de la desviación poblacional:
desviación poblacional: 𝝈𝝈𝑳𝑳𝑳𝑳 = 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟏𝟏𝟏𝟏
𝝈𝝈𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟗𝟗𝟗𝟗
Construir el intervalo de confianza para la desviación poblacional:
𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟑𝟑𝟑𝟑𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓)

333 542
LI LS

Así, la desviación poblacional se ubica en un rango de entre $333 y $542 con un

90% de confianza. La promoción que establezca el parque de diversiones deberá
estar en este rango respecto al gasto promedio familiar.

149 de 357
Tercer semestre
RESUMEN
Se expusieron las bases para llevar a cabo la estimación de parámetros, uno de los
principales temas de la Estadística II. Se mostraron los tipos de estimaciones que
pueden realizarse de un parámetro (puntual y por intervalo) y se analizaron las
posibles fuentes de error de estimación, que pueden ser atribuibles a la muestra
recabada o a otras causas. Es factible que el riesgo de error de estimación por
causas no atribuibles al muestreo disminuya a través de un buen diseño del
instrumento, de la logística y considerando la posible no respuesta.

Por otro lado, se expusieron las propiedades que se buscan en los estimadores: que
sean insesgados, eficientes y consistentes.

Se mostró también cómo realizar

estimaciones puntuales y por
intervalo de una media poblacional
utilizando muestras grandes y
pequeñas. De igual manera, la forma
de efectuar estimaciones de una
proporción poblacional. Finalmente,
se dieron los elementos para
construir intervalos de confianza
para la varianza y desviación poblacional.

El valor agregado de este material fue presentar el uso de fórmulas de MS-Excel

para calcular los cuantiles de las distribuciones normal estándar, t de Student y 𝝌𝝌𝟐𝟐 ,
que expresan los niveles de confianza deseados para realizar estimaciones por
intervalo.

150 de 357
Tercer semestre
BIBLIOGRAFÍA

SUGERIDA

Autor Capítulo Páginas

Anderson, S. (2016) 8 308-332
Levin, R.(2010) 7 273-308
Lind, D. (2015) 9 297-319

151 de 357
Tercer semestre
UNIDAD 4

Pruebas de hipótesis

152 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno conocerá las pruebas de hipótesis y su aplicación.

TEMARIO DETALLADO
(10 horas)

4. Pruebas de hipótesis
4.1. Planteamiento de las hipótesis
4.2. Errores tipo I y tipo II
4.3. Pruebas de uno y de dos extremos, y regiones de aceptación y de rechazo
4.4. Pruebas de hipótesis para una media poblacional
4.5. Tres métodos para realizar pruebas de hipótesis
4.5.1. El método del intervalo
4.5.2. El método estadístico de prueba
4.5.3. El método del valor de la P
4.6. Prueba de hipótesis sobre una proporción poblacional
4.7. Pruebas de hipótesis sobre la diferencia entre dos medias
4.8. Pruebas de hipótesis sobre la diferencia entre dos proporciones
4.9. Prueba para la diferencia entre dos varianzas

153 de 357
Tercer semestre
INTRODUCCIÓN
Hay dos temas que tienen mayor importancia en Estadística II: estimación de
parámetros y pruebas de hipótesis. En la unidad anterior, se expuso el tema de
estimación; ahora, se abordará el de pruebas de hipótesis.

En la práctica profesional es habitual enfrentar situaciones

donde se requiere apoyar o no un supuesto sobre
el comportamiento de una distribución. Por
ejemplo, al área de mercadotecnia de una
empresa de cosméticos le gustaría
comprobar si el 75% de las mujeres entre 30
y 40 años que laboran utilizan un labial de
color café. O un auditor desearía comprobar que
el 60% de las licitaciones de cierta organización no
cumplieron con las bases de la convocatoria. O al coordinador del departamento de
Matemáticas le interesaría conocer si existe diferencia en el aprovechamiento de la
materia de Estadística entre los alumnos de Administración y Contaduría.

En esta unidad se expone cómo plantear hipótesis, los tipos de errores que se
pueden cometer y las clases de pruebas. Además, se muestra cómo realizar
contrastes de hipótesis para una y dos medias, una y dos proporciones, y dos
varianzas.

154 de 357
Tercer semestre
4.1. Planteamiento de
las hipótesis
En todas las áreas del conocimiento donde se aplica el método científico, el
planteamiento de hipótesis desempeña un papel central. Después de observar una
situación, toda investigación parte de una hipótesis, la cual buscará apoyarse o no
con la evidencia recabada en una muestra. Por ejemplo, un investigador de las
ciencias administrativas podría estar interesado en demostrar que la proporción de
PYMES que fracasan los primeros cinco años de vida es mayor en el sector
comercial que en el de servicios. El gerente de marca de un producto desearía
demostrar que las ventas de su producto aumentan 10% si el tiempo de promoción
en radio es mayor a 25 minutos al día. O el coordinador de Matemáticas pretendería
demostrar que no hay diferencia en el desempeño de los alumnos del turno
vespertino respecto al matutino.

En este apartado, se mostrará qué es una hipótesis estadística, sus partes y cómo
plantearla.

155 de 357
Tercer semestre
Hipótesis estadística

Una hipótesis estadística es un enunciado sobre el

comportamiento de un parámetro poblacional o de
la distribución de una variable aleatoria, la cual se
confirmará a través de una prueba de hipótesis que
utiliza la información de una muestra.

Elementos de una prueba de hipótesis:

Hipótesis alternativa
Hipótesis nula (H0) Nivel de significancia (α)
(H1 o Ha)

Enunciado referente
al comportamiento Enunciado que
del valor de un contrasta el
Probabilidad de no
parámetro comportamiento del
aceptar la hipótesis
poblacional que valor de un
nula cuando es
será probado a parámetro
verdadera.
través de la poblacional definido
información de una en la hipótesis nula.
muestra.

Estadístico de Valor crítico o

Región de rechazo Valor p (p-value)
prueba (EP) punto crítico (PC)

Probabilidad
de que el valor
Regla Valor del
arrojado por el
expresada con estadístico de Valores de la
estadístico de
una fórmula prueba a partir prueba donde
prueba sea
que involucra del cual se se rechaza la
observado si
los valores de rechaza la hipótesis nula.
la hipótesis
la muestra. hipótesis nula.
nula es
verdadera.

Planteamiento de hipótesis

156 de 357
Tercer semestre
El planteamiento de hipótesis consiste en definir tanto la hipótesis nula como la
alternativa de forma que involucre el parámetro a inferir. Es deseable plantear en la
hipótesis nula que el parámetro de interés es igual a cierto valor (𝜽𝜽 = 𝜽𝜽𝟎𝟎 ); y en la
alternativa, que es menor, mayor o diferente.

La notación que se emplea para plantear hipótesis es identificar la hipótesis nula o

alternativa (Ho o Ha) y separar con “:” el enunciado.

Como ejemplo, supóngase que el gerente de producto de

cierta organización desea comprobar a los directivos que
el principal competidor ocupa en promedio más de 30
minutos al día en sus promocionales insertados en radio.
En este caso, el parámetro 𝜽𝜽 de interés es el promedio
poblacional (μ), y la hipótesis que el gerente pretende probar
es que μ > 30, lo que la convierte en una hipótesis alternativa, y en consecuencia la
hipótesis nula es que μ ≤ 30 (como esta región contiene la igualdad, es suficiente
utilizar un solo punto de esta región). De esta manera, el planteamiento de hipótesis
queda así:

H0 : μ = 30
Ha : μ > 30

Para plantear una hipótesis, se sugiere dar estos pasos:

1. Identificar el parámetro poblacional que se desea inferir.

2. Identificar la hipótesis alternativa.

3. Identificar la hipótesis nula.

Una vez que se ha planteado la hipótesis, el siguiente paso es definir la precisión de

la prueba, lo cual se explicará en la siguiente sección.

157 de 357
Tercer semestre
4.2. Errores tipo I y tipo II
Para realizar una prueba de hipótesis, se requiere recabar una muestra. Esto implica
asumir que la inferencia tendrá una desviación respecto al comportamiento real.

Se corre el riesgo de dos situaciones que provoquen inferencias equivocadas al

realizar un contraste de hipótesis.

Primera situación consiste en rechazar la hipótesis

nula cuando es verdadera, a este caso se le
conoce como el error tipo I y se le denota como α
(probabilidad de que se presente esta situación).

Segundo caso se refiere a rechazar la hipótesis

alternativa cuando es cierta, a este error se le
denomina error tipo II y se denota como β
(probabilidad de caer en esta situación).

En la tabla 1, se ilustran los escenarios posibles al contrastar hipótesis.

Tabla 1. Escenarios posibles al contrastar hipótesis

Resultado de la prueba
Se acepta Se rechaza
Ho Ho
Decisión correcta Error tipo I α
Verdadera Se acepta Ho Se rechaza Ho
Situación real y es verdadera y es verdadera
de Ho Error tipo II β Decisión correcta
Falsa Se acepta Ho Se rechaza Ho
y es falsa y es falsa

Fuente: elaboración propia.

158 de 357
Tercer semestre
La tabla anterior muestra los escenarios posibles al realizar una prueba de hipótesis.
El primero ocurre cuando se toma una decisión correcta, ya sea aceptando o
rechazando la hipótesis cuando lo amerite. Los otros escenarios son los errores
mencionados previamente.

Al trabajar con pruebas de hipótesis en la práctica, se fija el error tipo I, que se

permite, lo cual se conoce como “nivel de significancia de la prueba”. Los valores
más comunes son de 0.05 y 0.01. Cuando los resultados de la prueba no tienen
consecuencias importantes, puede incrementarse el nivel de significancia. Es factible
controlar este error desde el diseño del muestreo.

Este material se centra en controlar el error I. Para el manejo del error tipo II, se
recomienda consultar a Anderson (2012, pp. 382-387).

159 de 357
Tercer semestre
4.3. Pruebas de uno y de dos extremos
y regiones de aceptación y de rechazo
Existen dos pruebas:

Prueba de un estremo Prueba de dos extremos

• Se contrasta que el valor del • Se contrasta que el valor sea
parámetro sea notablemente mayor diferente al establecido en la
o menor al fijado en la hipótesis hipótesis nula, es decir, puede ser
nula. notablemente mayor o menor.

El tipo de prueba se define con la hipótesis alternativa.

En la prueba de hipótesis se buscará un valor crítico a partir del cual se rechazará

todo resultado en la prueba que se encuentra en esta zona (región de rechazo).

Cuando la prueba es de una cola, la región de rechazo se localizará en un

extremo de la distribución del estadístico de prueba; y si es de dos extremos, en
los extremos de la distribución.

En la tabla 2 se resume esta información.

Tabla 2. Características de los tipos de pruebas de hipótesis

Signo de la Ha Prueba de Número de Ubicación de la zona
hipótesis extremos de rechazo en la
distribución
≠ Bilateral Dos Extremos positivo y
negativo
> Extremo positivo
Unilateral Una
< Extremo negativo

Fuente: elaboración propia.

160 de 357
Tercer semestre
En la figura 1, se ilustran los tipos de pruebas de hipótesis y sus zonas de rechazo.

Figura 1. Tipos de pruebas de hipótesis y zonas de rechazo

Prueba de Hipótesis
Bilateral

Zona de No Rechazo
Zona Rechazo Zona Rechazo

Prueba de Hipótesis
Unilateral
Negativa Positiva

Zona de No Rechazo
Zona de No Rechazo
Zona Rechazo Zona Rechazo

Fuente: elaboración propia.

La figura anterior muestra que las regiones de rechazo se encuentran a partir de un

valor que se denominará crítico.

El valor crítico

Se calcula a partir de la significancia que se defina en la prueba.

Supóngase que la distribución del estadístico de prueba es una normal
estandarizada. Para calcular el valor crítico, se emplea la siguiente
función de Excel:
• [Link](probabilidad)

161 de 357
Tercer semestre
Donde la probabilidad es 1 – α. El resultado será el cuantil que separa la curva en
dos partes: 1 – α y α.

Como ejemplo, supóngase que se estableció un nivel de significancia (α) de 1%. Se

pide determinar el valor crítico para una prueba de una o dos colas cuando la
distribución del estadístico de prueba es una distribución normal estandarizada.

a. Para una prueba de una cola

(derecha) α = 0.01
Probabilidad = 1 – 0.01
Probabilidad = 0.99
[Link](0.99) = 2.32

b. Para una prueba de una cola

(izquierda) Por la propiedad de simetría de una
distribución normal, el punto crítico es –2.32

c. Para una prueba de dos colas, se

buscarán dos puntos críticos y la α = 0.01
región de rechazo se dividirá en dos α se divide entre 2:
partes iguales. 𝜶𝜶 𝟎𝟎. 𝟎𝟎𝟎𝟎
= = 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎
Partiendo de: 𝟐𝟐 𝟐𝟐
Probabilidad = 1 – 0.005
Probabilidad = 0.995
[Link](0.995) = 2.575

Por la propiedad de simetría de la distribución normal, los puntos

críticos son ± 2.575

Para realizar la prueba de hipótesis, además de una muestra, se requiere un

estadístico de prueba, regla que arroja un valor aleatorio para determinar el resultado
de la prueba.

162 de 357
Tercer semestre
Fórmula general de un estadístico de prueba:

� − 𝜽𝜽𝟎𝟎
𝜽𝜽
𝑬𝑬𝑬𝑬 =
𝝈𝝈𝜽𝜽�

•
Donde:

EP = Estadístico de prueba
𝜽𝜽𝟎𝟎 = Parámetro poblacional asumiendo cierta la hipótesis nula
� = Estimador del parámetro
𝜽𝜽
𝝈𝝈𝜽𝜽� = Desviación estándar del estimador

El estadístico de prueba es una variable aleatoria debido a que su valor dependerá

de los elementos que conforman la muestra. En el resto de la unidad, se expondrán
las distribuciones muestrales asociadas a esos elementos.

Se cuenta con un estadístico de prueba para realizar una prueba con algún
parámetro. La tabla 3 contiene un resumen de los estadísticos de prueba a emplear
en esta unidad.

163 de 357
Tercer semestre
Tabla 3. Resumen de los elementos que conforman los estadísticos de prueba
para los casos a estudiar en esta unidad
Fórmula
Parámetro
Estimador Desviación estándar
poblacional Estadístico de prueba
del estimador
𝝈𝝈 � − 𝝁𝝁
𝒙𝒙
�
𝒙𝒙 𝝈𝝈𝒙𝒙� = 𝑬𝑬𝑬𝑬 = 𝝈𝝈
√𝒏𝒏
Promedio √𝒏𝒏
Si no se conoce σ, se
μ Si no se conoce σ, se
sustituye por s
sustituye por s

p 𝒑𝒑 − 𝑷𝑷
𝑷𝑷𝑷𝑷 𝑬𝑬𝑬𝑬 =
Proporción 𝝈𝝈𝒑𝒑 = � 𝑷𝑷𝑷𝑷
𝒏𝒏 �
𝒏𝒏
P q=1-p

�𝟏𝟏 − 𝒙𝒙
𝒙𝒙 �𝟐𝟐 �𝟏𝟏 − 𝒙𝒙
𝒙𝒙 �𝟐𝟐
𝝈𝝈𝟐𝟐 𝝈𝝈𝟐𝟐 𝑬𝑬𝑬𝑬 =
Diferencia de 𝝈𝝈𝒙𝒙�𝟏𝟏− 𝒙𝒙�𝟐𝟐 = � 𝟏𝟏 + 𝟐𝟐 𝝈𝝈𝟐𝟐𝟏𝟏 𝝈𝝈𝟐𝟐𝟐𝟐
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 � +
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
medias
Si no se conocen σ1, σ2, se Si no se conocen σ1, σ2, se
μ1 – μ2 sustituyen por s1 y s2 sustituyen por s1 y s2

𝝈𝝈𝒑𝒑 – 𝒑𝒑 𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐

Diferencia de 𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐 𝟏𝟏 𝟐𝟐 𝑬𝑬𝑬𝑬 = 𝒑𝒑𝟏𝟏 (𝟏𝟏−𝒑𝒑𝟏𝟏 ) 𝒑𝒑𝟐𝟐 (𝟏𝟏−𝒑𝒑𝟐𝟐 )
+
proporciones 𝒑𝒑𝟏𝟏 (𝟏𝟏 − 𝒑𝒑𝟏𝟏 ) 𝒑𝒑𝟐𝟐 (𝟏𝟏 − 𝒑𝒑𝟐𝟐 ) 𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
= +
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
p1 – p2

Comparación 𝒔𝒔𝟐𝟐𝟏𝟏 𝑺𝑺𝟐𝟐𝟏𝟏

𝑬𝑬𝑬𝑬 = 𝑭𝑭 =
de varianzas 𝑺𝑺𝟐𝟐𝟐𝟐
𝒔𝒔𝟐𝟐𝟐𝟐
𝝈𝝈𝟐𝟐𝟏𝟏
𝝈𝝈𝟐𝟐𝟐𝟐
Fuente: elaboración propia.

En las siguientes secciones se expondrá cada caso.

Para terminar este apartado, en la figura 2 se ilustran los elementos que conforman
una prueba de hipótesis de dos colas con un estadístico de prueba con distribución
normal estándar.

164 de 357
Tercer semestre
Figura 2. Elementos de una prueba de hipótesis
No se rechaza Ho Se rechaza Ho
p-value
Planteamiento
Ho =
H1 =

Zona de Zona de
No Rechazo No Rechazo p-value
α/2 α/2 α/2 α/2
Zona Zona Zona Zona
Rechazo Rechazo Rechazo Rechazo
Punto Punto Punto Punto
crítico crítico crítico crítico
Estadístico Estadístico
de prueba de prueba

Fuente: elaboración propia.

La figura anterior muestra dos situaciones: la aceptación de la hipótesis nula (figura

izquierda) y su rechazo (figura derecha).

165 de 357
Tercer semestre
4.4. Pruebas de hipótesis
para una media poblacional
La primera prueba que se abordará en esta unidad se relaciona con el promedio
poblacional (μ). Para estimar este parámetro, se emplea el promedio muestral (𝒙𝒙
�). En
la segunda unidad, se mencionó que la distribución muestral de la media se acerca a
una normal cuando la varianza poblacional es conocida o si la muestra es de tamaño
de 30 o más elementos. Si se desconoce la varianza, la distribución muestral es una
t con n – 1 grados de libertad, la cual se aproxima a una normal estandarizada
conforme se incrementa la muestra.

166 de 357
Tercer semestre
Estadístico de prueba a utilizar:
� − 𝜽𝜽𝟎𝟎 𝒙𝒙
𝜽𝜽 � − 𝝁𝝁
𝑬𝑬𝑬𝑬 = =
𝝈𝝈𝜽𝜽� 𝝈𝝈𝒙𝒙�

Donde:
𝝈𝝈
𝝈𝝈𝒙𝒙� =
√𝒏𝒏

Cuando se conoce la varianza poblacional, en caso contrario, se sustituye por s.

A continuación, se muestran ejemplos sobre la realización de pruebas con la media.

Ejemplo 1

El gerente del área médica de una empresa farmacéutica

sabe por experiencia que el promedio de visitas
diarias a los médicos efectuadas por los
representantes es de 6 con una desviación
estándar de 1.22. Entonces, el gerente del área
llama la atención a los representantes médicos, pues
considera que el promedio de visitas ha disminuido en los
últimos tres meses. A fin de comprobarlo, toma una muestra de 30 representantes,
donde encuentra que el promedio es de 6.06 con una desviación de 1.41.
Considerando una significancia de 0.05, ¿tiene razón el gerente?

Solución:

Para resolver la prueba, se darán los siguientes pasos.

167 de 357
Tercer semestre
1. Identificar los datos 2. Definir las hipótesis
•El parámetro a probar es μ: •La hipótesis nula se establece con el valor
•μ = 6 histórico (μ = 6). La hipótesis alternativa se
•n = 30 encuentra en este segmento del enunciado
del problema: “el gerente del área llama la
•�
𝒙𝒙 = 𝟔𝟔. 𝟎𝟎𝟎𝟎
atención a los representantes médicos, pues
•s = 1.41 considera que el promedio de visitas ha
•α = 5% (0.05) disminuido en los últimos tres meses…”.
La prueba queda planteada así:
H0 : μ = 6
H1 : μ < 6
Es una prueba de un extremo (izquierdo).

3. Como el estadístico de prueba sigue una

distribución normal estandarizada, se
determinará el valor crítico y la zona de
4. Se realizan los cálculos del estadístico de rechazo con las fórmulas que corresponden en
prueba con la fórmula correspondiente: Excel.
�
𝒙𝒙− 𝝁𝝁
•𝑬𝑬𝑬𝑬 = 𝝈𝝈 •Primero, se calculará el parámetro
𝒏𝒏 probabilidad:
𝟔𝟔.𝟎𝟎𝟎𝟎−𝟔𝟔
•𝑬𝑬𝑬𝑬 = 𝟏𝟏.𝟒𝟒𝟒𝟒 •Probabilidad = 1 – 0.05 = 0.95
𝟑𝟑𝟑𝟑
𝟎𝟎.𝟎𝟎𝟎𝟎
•De esta manera, se calcula el punto crítico
•𝑬𝑬𝑬𝑬 = 𝟏𝟏.𝟒𝟒𝟒𝟒 (PC) con la siguiente fórmula:
𝟓𝟓.𝟒𝟒𝟒𝟒𝟒𝟒 •PC = [Link](0.95)
𝟎𝟎.𝟎𝟎𝟎𝟎
•𝑬𝑬𝑬𝑬 = •PC = 1.645 = 1.65
𝟎𝟎.𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
•𝑬𝑬𝑬𝑬 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 •Como la prueba es de un extremo a la
izquierda por la propiedad de simetría de la
distribución normal, el valor crítico es –1.65

5. Se construye una gráfica donde se ubica la No se rechaza Ho

zona de rechazo y el valor arrojado por el
estadístico de prueba.

•El EP se sitúa en la región de no rechazo, así

que H0 no se rechaza a una significancia del
0.05. Es decir, no hay elementos para apoyar Zona de
la idea del gerente de área de que el No Rechazo
α= 0.05
promedio de visitas médicas ha disminuido
en los últimos tres meses. Zona
Rechazo
PC = -1.65
EP = 0.233

168 de 357
Tercer semestre
Ejemplo 2

El promedio de un examen de conocimientos aplicado por una universidad cada año

ha sido de 7.25. El director sospecha que el promedio de calificaciones disminuyó el
último año, por lo que solicitó realizar un estudio tomando una muestra de 40
alumnos con una significancia del 10%.

Los resultados de calificaciones obtenidas por los 40 alumnos seleccionados se

muestran a continuación.

Alumno Calificación Alumno Calificación

1 2 21 7
2 7 22 0
3 6 23 1
4 2 24 0
5 1 25 6
6 0 26 5
7 10 27 10
8 9 28 8
9 9 29 10
10 5 30 3
11 7 31 8
12 5 32 8
13 3 33 1
14 5 34 2
15 5 35 8
16 10 36 3
17 4 37 8
18 8 38 8
19 7 39 10
20 3 40 9

Con una significancia de 10%, ¿se apoya la hipótesis del director?

169 de 357
Tercer semestre
Solución:

Para resolver la prueba, se darán los siguientes pasos.

1. Identificar los datos

El parámetro a probar es μ:
μ = 7.25
n = 40
α = 10% (0.10)
2. Calcular el promedio y desviación muestral. Se pueden emplear las fórmulas
promedio() y desvest()de Excel, o calcularlos con sus respectivas fórmulas.
Promedio muestral:
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑥𝑥̅ =
𝑛𝑛
∑ 𝑥𝑥𝑖𝑖 223
𝑥𝑥̅ = =
𝑛𝑛 40
𝑥𝑥̅ = 5.57
Desviación estándar muestral:

∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑠𝑠 = �
𝑛𝑛 − 1

∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 407.775 407.775

𝑠𝑠 = � = � = � = √10.455
𝑛𝑛 − 1 40 − 1 39

s = 3.23
3. Definir las hipótesis

En este ejemplo, la hipótesis nula se establece con el valor histórico (μ = 7.25). La

hipótesis alternativa se encuentra en este segmento del enunciado del problema:
“El director sospecha que el promedio de calificaciones disminuyó el último año”.
La prueba se plantea así:
H0 : μ = 7.25
H1 : μ < 7.25
La prueba es de un extremo (izquierdo).

170 de 357
Tercer semestre
4. Como el estadístico de prueba sigue una distribución normal estandarizada, se
determinará el valor crítico y la zona de rechazo con las fórmulas que
correspondan en Excel.

Primero, se calcula el parámetro probabilidad:

Probabilidad = 1 – α= 0.9
De esta manera, se calcula el punto crítico:
PC = [Link](0.90)
PC = 1.281 = 1.28

Como la prueba es de un extremo a la izquierda por la propiedad de simetría de la

distribución normal, el valor crítico es –1.28.
5. Se realizan los cálculos del estadístico de prueba con la fórmula siguiente:

� − 𝝁𝝁
𝒙𝒙
𝑬𝑬𝑬𝑬 = 𝒔𝒔
√𝒏𝒏
𝟓𝟓. 𝟓𝟓𝟓𝟓 − 𝟕𝟕. 𝟐𝟐𝟐𝟐
𝑬𝑬𝑬𝑬 = 𝟑𝟑.𝟐𝟐𝟐𝟐
√𝟒𝟒𝟒𝟒
−𝟏𝟏. 𝟔𝟔𝟔𝟔
𝑬𝑬𝑬𝑬 = 𝟑𝟑.𝟐𝟐𝟐𝟐
𝟔𝟔.𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
−𝟏𝟏. 𝟔𝟔𝟔𝟔
𝑬𝑬𝑬𝑬 =
𝟎𝟎. 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓
𝑬𝑬𝑬𝑬 = −𝟑𝟑. 𝟐𝟐𝟐𝟐

6. Se construye la gráfica para determinar la zona donde se ubica el valor del

estadístico de prueba.

171 de 357
Tercer semestre
Se rechaza Ho

Zona de
No Rechazo
α= 0.10
Zona
Rechazo
PC = -1.28
EP = -3.28

El EP se sitúa en la región de rechazo, así que H0 no se acepta a una significancia

de 0.10. Es decir, hay elementos para apoyar al director de que el promedio del
examen de conocimientos disminuyó el último año.

Ejemplo 3
El gerente de producto de una marca de ropa conoce
que a nivel nacional los hogares de su segmento de
mercado destinan en promedio al mes $2,045 en la
compra de ropa y calzado. El gerente piensa que los
miembros de su programa de CRM (Customer
Relationship Management) no gastan esa cantidad.
Entonces, para diseñar una estrategia de venta con
los miembros de su programa de CRM, entrevista a
una muestra elegida al azar de 20 hogares, a
quienes pregunta la cantidad de dinero destinada a
vestido y calzado al mes. La muestra arrojó que en
promedio un hogar miembro del CRM gasta al mes
$1,930 con una desviación del $680. ¿Los resultados
anteriores apoyan la hipótesis del gerente, con una
significancia del 5%?

172 de 357
Tercer semestre
Solución:
Nuevamente, se siguen los pasos de los ejemplos anteriores.

2. Definir las hipótesis

•La hipótesis nula se establece con el valor
1. Establecer los datos conocido de la población (μ = 2,045). La
hipótesis alternativa se encuentra en este
•El parámetro a probar es μ:
segmento del enunciado del problema: “El
μ = $2,045
n = 20 gerente piensa que los miembros de su
α = 5% (0.05) programa de CRM (Customer Relationship
Management) no gastan esa cantidad”.
𝒙𝒙 = $1,930
�
La prueba queda planteada así:
𝒔𝒔 = $680
H0: μ = 2,045
H1: μ ≠2,045
Es una prueba de dos extremos.

4. Se realizan los cálculos del 3. Como se desconoce la desviación poblacional

estadístico de prueba con la y además el tamaño de la muestra es inferior a
fórmula correspondiente: 30 elementos, el estadístico de prueba sigue
�
𝒙𝒙− 𝝁𝝁
una distribución t de Student con 19 grados de
•𝑬𝑬𝑬𝑬 = 𝒔𝒔 libertad. Se determinará el valor crítico y la
𝒏𝒏 zona de rechazo con las fórmulas que
𝟏𝟏,𝟗𝟗𝟗𝟗𝟗𝟗−𝟐𝟐,𝟎𝟎𝟎𝟎𝟎𝟎
•𝑬𝑬𝑬𝑬 = 𝟔𝟔𝟔𝟔𝟔𝟔
correspondan en Excel.

−𝟏𝟏𝟏𝟏𝟏𝟏
𝟐𝟐𝟐𝟐
•En este caso, los puntos críticos se obtienen
•𝑬𝑬𝑬𝑬 = 𝟔𝟔𝟔𝟔𝟔𝟔 con la siguiente fórmula:
𝟒𝟒.𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒 •PC = [Link](0.05,19) = 2.0930
−𝟏𝟏𝟏𝟏𝟏𝟏
•𝑬𝑬𝑬𝑬 = •Como la prueba es de dos extremos y la
𝟏𝟏𝟏𝟏𝟏𝟏.𝟎𝟎𝟎𝟎
•𝑬𝑬𝑬𝑬 = −𝟎𝟎. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕 fórmula considera esta situación, los puntos
críticos son ± 2.09.

5. Se dibuja la gráfica para determinar No se rechaza Ho

la zona donde se encuentra el valor
del estadístico de prueba.

El EP no se encuentra en la región de
rechazo, así que H0 no se rechaza a un
Zona de
nivel de significancia de 5%. Es decir, α= 0.025 No Rechazo α= 0.025
no hay elementos para no apoyar que
los hogares miembros del CRM Zona Zona
destinan al mes $2,045 en vestido y Rechazo Rechazo
calzado. PC = -2.09 PC = 2.09

EP = -0.76

173 de 357
Tercer semestre
4.5. Tres métodos para realizar
pruebas de hipótesis
En la sección anterior, se expuso cómo realizar pruebas de hipótesis para una
media, siguiendo estos pasos:

1. Plantear la hipótesis.

2. Identificar la distribución asociada al estadístico de

prueba.

3. Delimitar las regiones de aceptación y rechazo.

4. Calcular el estadístico de prueba con los valores de la

muestra.

5. Concluir la prueba.

Para el punto 5, se pueden aplicar tres criterios: basarse en el valor del estadístico
de prueba, utilizar el p-value o emplear un intervalo de confianza. La siguiente sesión
muestra la manera de concluir una prueba de hipótesis utilizando los tres diferentes
métodos.

174 de 357
Tercer semestre
4.5.1. El método del intervalo

En la unidad anterior, se aprendió a hacer estimaciones de un parámetro poblacional

a través de un intervalo de confianza. En este apartado, dicho cálculo servirá para
concluir una prueba de hipótesis. Se aplicará la siguiente regla:

Si el valor de 𝜇𝜇0 se encuentra en el intervalo de confianza, entonces no se rechaza 𝐻𝐻0

•Este criterio del intervalo de confianza se emplea en pruebas bilaterales donde la

confiabilidad del intervalo será 1 – α.

Para ejemplificar el uso del método del intervalo de confianza, se retomará el ejemplo
3 de la sesión anterior, donde con una significancia de 5% se deseaba probar que los
hogares miembros del programa de CRM destinaban al mes en promedio una
cantidad diferente a $2,045 en vestido y calzado. Para realizar la prueba, se empleó
una muestra aleatoria de 20 familias, quienes en promedio destinaban
mensualmente $1,930 en adquirir vestido y calzado con una desviación del $680.

El planteamiento de la hipótesis fue el siguiente:

H0: μ = $2,045
H1: μ ≠ $2,045

El estimador empleado para determinar el valor de μ es el promedio muestral, con

una distribución t de Student con 19 grados de libertad, porque se desconoce la
varianza poblacional.

Al conocer la distribución del promedio muestral, se puede estimar un intervalo de

confianza que contenga a μ.

175 de 357
Tercer semestre
Con el método de intervalo de confianza, se acepta la hipótesis nula si $2,045 se
encuentra contenido. Como la significancia de la prueba (α) es de 5%, la
confiabilidad del intervalo es 1 – α = 1 – 0.05 = 0.95.

De esta manera, el intervalo de confianza (IC) con 95% de confiabilidad resulta:

𝒔𝒔
� ± 𝒕𝒕
𝑰𝑰𝑰𝑰 = 𝒙𝒙
√𝒏𝒏

𝟔𝟔𝟔𝟔𝟔𝟔
𝑰𝑰𝑰𝑰 = 𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗 ± 𝟐𝟐. 𝟎𝟎𝟎𝟎 ∙
√𝟐𝟐𝟐𝟐

𝑰𝑰𝑰𝑰 = 𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗 ± 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟐𝟐𝟐𝟐

𝑰𝑰𝑰𝑰 = (𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔. 𝟕𝟕𝟕𝟕 − 𝟐𝟐, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐)

Como el valor del parámetro bajo la hipótesis nula (2,045) lo contiene el intervalo, no
se rechaza 𝑯𝑯𝟎𝟎

4.5.2. El método estadístico de prueba

En los ejemplos utilizados en las pruebas sobre la media se procedía a delimitar las
regiones de aceptación y rechazo de acuerdo con la distribución del estadístico de
prueba. Luego, con los valores de la muestra, se calculaba el valor del estadístico de
prueba y se observaba la región donde caía este valor:

si caía en la región de aceptación, se aceptaba la

hipótesis nula; de lo contrario, se rechazaba.

Esta metodología se empleó en la sección de pruebas de hipótesis para una media

poblacional.

176 de 357
Tercer semestre
4.5.3. El método del valor de la p

Otro criterio para determinar si se acepta o no una hipótesis es a través del valor de
la p, conocido como p-value. Este valor es la probabilidad de que el estadístico de
prueba sea el que arroje la muestra o un valor mayor.

Como regla práctica, si p-value es mayor a la significancia

de la prueba, se acepta la hipótesis nula; en caso
contrario, se rechaza.

Para ejemplificar este método, se plantea nuevamente el ejemplo 3 de la sección

anterior, donde el estadístico de prueba resultó −𝟎𝟎. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕. Como la distribución del
estadístico de prueba es una t con 19 grados de libertad, la probabilidad de observar
el valor del estadístico de prueba es el siguiente:

DISTR.T(–7563,19,2) = 0.4587
Como el p-value es mayor a 0.05, no se rechaza la hipótesis nula.

177 de 357
Tercer semestre
4.6. Prueba de hipótesis sobre una
proporción poblacional

La segunda prueba que se abordará en esta unidad es la relacionada con la

proporción poblacional (P). Para estimar este parámetro, se emplea la proporción
muestral (𝒑𝒑). En la segunda unidad, se estudió que la distribución muestral de la
proporción se acerca a una normal; en este caso, el estadístico de prueba a utilizar
es el siguiente:
� − 𝜽𝜽𝟎𝟎 𝒑𝒑 − 𝑷𝑷
𝜽𝜽
𝑬𝑬𝑬𝑬 = =
𝝈𝝈𝜽𝜽� 𝝈𝝈𝒑𝒑

Donde:
𝑷𝑷(𝟏𝟏 − 𝑷𝑷)
𝝈𝝈𝒑𝒑 = �
𝒏𝒏

Esto es cuando se conoce la proporción poblacional. En caso contrario, en vez de

dividir entre n, se hace entre n – 1.

A continuación, se exponen ejemplos sobre la realización de pruebas con la

proporción.

Ejemplo 1

Históricamente, las entregas a domicilio de productos adquiridos en una cadena de

tiendas departamentales en el tiempo establecido en sus políticas, es de 85%. A fin
de solicitar un bono de desempeño, el gerente de logística selecciona una muestra
aleatoria de 50 casos para demostrar que la proporción de entregas hechas en
tiempo se ha incrementado. En la muestra, se realizaron en tiempo 44 entregas. Con

178 de 357
Tercer semestre
una significancia de 0.05, se pide confirmar si se apoya lo dicho por el gerente de
logística.

Solución
Se realiza lo mismo de los ejemplos anteriores.

1. Establecer los datos 2. Definir las hipótesis

•Parámetro solicitado P: •En este ejemplo, la hipótesis nula
P = 85%, 0.85 entregas se establece con el valor conocido
𝑸𝑸 = 𝟏𝟏 − 𝑷𝑷 de la población (P = 0.85). La
𝑸𝑸 = 𝟏𝟏 − 𝟎𝟎. 𝟖𝟖𝟖𝟖 hipótesis alternativa se encuentra
𝑸𝑸 = 𝟎𝟎. 𝟏𝟏𝟏𝟏 en este segmento del enunciado
n = 50 del problema: “la proporción de
α = 0.05 entregas hechas en tiempo se ha
•Calcular la proporción muestral (p), donde incrementado”.
hay 44 entregas realizadas en tiempo: •La prueba queda planteada así:
𝟒𝟒𝟒𝟒 H0 : P = 0.85
𝒑𝒑 = = 𝟎𝟎. 𝟖𝟖𝟖𝟖
𝟓𝟓𝟓𝟓 H1 : P > 0.85
Es una prueba de un extremo
(derecho).

4. Se realizan los cálculos del estadístico

de prueba con la fórmula
correspondiente:
𝒑𝒑−𝑷𝑷
3. Se determina la zona de rechazo
• 𝑬𝑬𝑬𝑬 = calculando el punto crítico. Es
𝑷𝑷𝑷𝑷
𝒏𝒏 necesario calcular el valor de la
𝟎𝟎. 𝟖𝟖𝟖𝟖 − 𝟎𝟎. 𝟖𝟖𝟖𝟖 probabilidad que se sustituirá en la
𝑬𝑬𝑬𝑬 =
𝟎𝟎. 𝟖𝟖𝟖𝟖 � 𝟎𝟎. 𝟏𝟏𝟏𝟏 fórmula de Excel. Este valor se obtiene
𝟓𝟓𝟓𝟓 utilizando el valor de α:
𝟎𝟎. 𝟎𝟎𝟎𝟎
𝑬𝑬𝑬𝑬 = •Probabilidad = 1 – 0.05 = 0.95
𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝟓𝟓𝟓𝟓 •PC = [Link](0.95)
𝟎𝟎. 𝟎𝟎𝟎𝟎 •PC = 1.644 = 1.64
𝑬𝑬𝑬𝑬 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟎𝟎𝟎𝟎
𝑬𝑬𝑬𝑬 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑬𝑬𝑬𝑬 = 𝟎𝟎. 𝟓𝟓𝟓𝟓𝟓𝟓

No se rechaza Ho

5. Se dibuja la gráfica para determinar la zona

donde se encuentra el valor del estadístico de
prueba:

•El EP se halla en la región de no rechazo, así Zona de

que H0 no se rechaza con un nivel de No Rechazo
α= 0.05
significancia de 0.05. Es decir, no hay elementos Zona
para apoyar al gerente cuando afirma que la Rechazo
proporción de entregas hechas en tiempo ha PC = 1.64
incrementado.
EP = 0.594
179 de 357
Tercer semestre
Ejemplo 2

Las cifras oficiales reportadas por un

país ante un organismo internacional
señalan que el 72% de la población
mayor a 18 años en posibilidad de
generar un ingreso se encuentra en
informalidad laboral. Un investigador
considera que estas cifras no coinciden
con la realidad nacional y levanta una
encuesta entre 300 personas elegidas al azar, mayores de 18 años y en posibilidad
de generar ingresos: obtiene que 262 se encuentran en informalidad. ¿Hay la
suficiente evidencia con un nivel de significancia del 10% para apoyar las cifras
oficiales?

Solución:
Se procede como en los ejemplos anteriores.

180 de 357
Tercer semestre
1. Establecer los datos 2. Definir las hipótesis
•Parámetro solicitado P: •En este ejemplo, la hipótesis nula se
P = 72%, 0.72 establece con el valor conocido de la
•𝑸𝑸 = 𝟏𝟏 − 𝑷𝑷 población (P = 0.72). La hipótesis
•𝑸𝑸 = 𝟏𝟏 − 𝟎𝟎. 𝟕𝟕𝟕𝟕 alternativa se encuentra en este
•𝑸𝑸 = 𝟎𝟎. 𝟐𝟐𝟐𝟐 segmento del enunciado del problema:
•n = 300 “estas cifras no coinciden con la
realidad nacional”.
•α = 0.10
La prueba queda definida así:
•Probabilidad = 1 – 0.10 = 0.9 H0 : P = 0.72
𝟐𝟐𝟐𝟐𝟐𝟐
•𝒑𝒑 = = 𝟎𝟎. 𝟖𝟖𝟖𝟖 H1 : P ≠ 0.72
𝟑𝟑𝟑𝟑𝟑𝟑
Es una prueba de dos extremos.

4. Se realizan los cálculos del

estadístico de prueba utilizando
la fórmula correspondiente: 3. Se determina la zona de rechazo calculando
𝒑𝒑−𝑷𝑷 el punto crítico. Es necesario calcular el valor
•𝑬𝑬𝑬𝑬 = de la probabilidad que se sustituirá en la
𝑷𝑷𝑷𝑷
𝒏𝒏 fórmula de Excel, el cual parte del valor de α.
𝟎𝟎.𝟖𝟖𝟖𝟖−𝟎𝟎.𝟕𝟕𝟕𝟕
•𝑬𝑬𝑬𝑬 = •α = 0.10
𝟎𝟎.𝟕𝟕𝟕𝟕�𝟎𝟎.𝟐𝟐𝟐𝟐
𝟑𝟑𝟑𝟑𝟑𝟑 •Como es de dos colas la significancia, se
𝜶𝜶 𝟎𝟎.𝟏𝟏𝟏𝟏
•𝑬𝑬𝑬𝑬 =
𝟎𝟎.𝟏𝟏𝟏𝟏 dividen entre dos: = = 0.05
𝟎𝟎.𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝟐𝟐 𝟐𝟐
𝟑𝟑𝟑𝟑𝟑𝟑 La probabilidad será 1 – 0.05 = 0.95
𝟎𝟎.𝟏𝟏𝟏𝟏 Entonces, el punto crítico es el siguiente:
•𝑬𝑬𝑬𝑬 = PC = [Link](0.95)
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎.𝟏𝟏𝟏𝟏 PC = 1.644 = 1.64
•𝑬𝑬𝑬𝑬 =
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎 Por tratarse de una prueba de dos colas y por
•𝑬𝑬𝑬𝑬 = 𝟓𝟓. 𝟕𝟕𝟕𝟕 la simetría de la distribución normal, los
puntos críticos son ± 1.64

Se rechaza Ho

5. Se dibuja la gráfica para determinar la zona

donde se encuentra el valor del estadístico de
prueba:

El EP se halla en la región de rechazo, así que H0 Zona de

α= 0.05 No Rechazo
se rechaza a un nivel de confianza de 90%. Es α= 0.05
decir, hay elementos para apoyar al
investigador cuando afirma que las cifras Zona Zona
oficiales no coinciden con la realidad nacional. Rechazo Rechazo
PC = -1.64 PC = 1.64

EP = 5.78

181 de 357
Tercer semestre
4.7. Pruebas de hipótesis sobre
la diferencia entre dos medias
Es común enfrentarse a situaciones donde se desea comparar los parámetros de dos
poblaciones. Por ejemplo, el director de mercadotecnia de una organización podría
estar interesado en conocer el nivel de ingreso de cierto segmento de interés en el
Distrito Federal y en Tijuana; o el director de la FCA se interesaría en conocer el nivel
de matemáticas de los alumnos de primer ingreso provenientes del concurso de
selección en comparación con los de pase reglamentario.

En este apartado se muestra cómo realizar estos comparativos. La prueba que se

abordará es la diferencia entre dos medias de poblaciones diferentes (μ1 – μ2). En
esencia, la prueba establece que no existe diferencia importante entre las medias de
estas poblaciones (μ1 = μ2). Para estimar esta diferencia, se recurre a la diferencia de
los promedios muestrales (𝒙𝒙
�𝟏𝟏 − 𝒙𝒙
�𝟐𝟐 ).

El estadístico de prueba a utilizar es el siguiente:

� − 𝜽𝜽𝟎𝟎 𝒙𝒙
𝜽𝜽 �𝟏𝟏 − 𝒙𝒙 �𝟐𝟐
𝑬𝑬𝑬𝑬 = =
𝝈𝝈𝜽𝜽� 𝝈𝝈𝛍𝛍𝟏𝟏 – 𝛍𝛍𝟐𝟐

Donde:

𝝈𝝈𝟐𝟐𝟏𝟏 𝝈𝝈𝟐𝟐𝟐𝟐
𝝈𝝈𝛍𝛍𝟏𝟏 – 𝛍𝛍𝟐𝟐 = +
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐

182 de 357
Tercer semestre
Esto es cuando se conoce la varianza poblacional; en caso contrario, se sustituye
por s.

Cuando se conocen las varianzas poblacionales, el estadístico de prueba tiene una

distribución normal estandarizada. De lo contrario, la distribución del estadístico de
prueba es una t con grados de libertad definidos con la siguiente fórmula:

𝒔𝒔𝟐𝟐 𝒔𝒔𝟐𝟐
(𝒏𝒏𝟏𝟏 + 𝒏𝒏𝟐𝟐 )𝟐𝟐
𝟏𝟏 𝟐𝟐
𝒈𝒈𝒈𝒈 = 𝟐𝟐
𝟏𝟏 𝒔𝒔𝟏𝟏 𝟐𝟐 𝟏𝟏 𝒔𝒔𝟐𝟐𝟐𝟐 𝟐𝟐
( ) + 𝒏𝒏𝟐𝟐 − 𝟏𝟏 𝒏𝒏𝟐𝟐 )
(
𝒏𝒏𝟏𝟏 − 𝟏𝟏 𝒏𝒏𝟏𝟏

A continuación, se muestran ejemplos sobre la realización de este tipo de pruebas.

Ejemplo 1

Un inversionista planea desarrollar un gimnasio

destinado a mujeres. Para definir a qué
segmento enfocarse, opta por encuestar a dos
grupos de 50 mujeres elegidas aleatoriamente
que realizan ejercicio, para conocer el tiempo
destinado a ello. El primer grupo lo integran
mujeres de 30 años o menos; y el segundo,
mujeres mayores de 30 años. Los resultados de las
encuestas arrojaron que las mujeres de 30 años o menos destinan en ejercitarse un
promedio de 3.1 horas al día con una varianza muestral de 1.43 horas; las mujeres
mayores de 30 años, destinan en promedio 2.78 horas con una varianza muestral de
1.34 horas. Con una significancia del 1%, se pide determinar si existe diferencia
entre los grupos al tiempo promedio destinado a ejercitarse.

183 de 357
Tercer semestre
Solución:
Se procede como en los ejemplos anteriores.

1. Establecer los datos

• Parámetro solicitado μ1 – μ2:
�𝟏𝟏 = 3.1
• 𝒙𝒙
�𝟐𝟐 = 2.78
• 𝒙𝒙
• 𝒔𝒔𝟐𝟐𝟏𝟏 = 𝟏𝟏. 𝟒𝟒𝟒𝟒
• 𝒔𝒔𝟐𝟐𝟐𝟐 = 𝟏𝟏. 𝟑𝟑𝟑𝟑
• n1 = 50
• n2 = 50
• α = 0.01
• Como no se conocen las varianzas poblacionales, es
necesario calcular los grados de libertad:
𝒔𝒔 𝟐𝟐𝒔𝒔 𝟐𝟐
( 𝟏𝟏 + 𝟐𝟐 )𝟐𝟐
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
• 𝒈𝒈𝒈𝒈 = 𝒔𝒔𝟐𝟐 𝒔𝒔𝟐𝟐
𝟏𝟏 𝟏𝟏
( 𝟏𝟏 )𝟐𝟐 + ( 𝟐𝟐 )𝟐𝟐
𝒏𝒏𝟏𝟏 −𝟏𝟏 𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 −𝟏𝟏 𝒏𝒏𝟐𝟐
𝟏𝟏.𝟒𝟒𝟒𝟒 𝟏𝟏.𝟑𝟑𝟑𝟑 𝟐𝟐
( + )
• 𝒈𝒈𝒈𝒈 = 𝟓𝟓𝟓𝟓
𝟏𝟏 𝟏𝟏.𝟒𝟒𝟒𝟒 𝟐𝟐
𝟓𝟓𝟓𝟓
𝟏𝟏 𝟏𝟏.𝟑𝟑𝟑𝟑 𝟐𝟐
( ) + ( )
𝟓𝟓𝟓𝟓−𝟏𝟏 𝟓𝟓𝟓𝟓 𝟓𝟓𝟓𝟓−𝟏𝟏 𝟓𝟓𝟓𝟓
(𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎+𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎) 𝟐𝟐
• 𝒈𝒈𝒈𝒈 = 𝟏𝟏 𝟏𝟏
(𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎)𝟐𝟐 + (𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎)𝟐𝟐
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
(𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎)𝟐𝟐
• 𝒈𝒈𝒈𝒈 = 𝟏𝟏 𝟏𝟏
(𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎)+ (𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎)
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
• 𝒈𝒈𝒈𝒈 = 𝟏𝟏
(𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎+𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎)
𝟒𝟒𝟒𝟒
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
• 𝒈𝒈𝒈𝒈 = 𝟏𝟏
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎+𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟒𝟒𝟒𝟒
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
• 𝒈𝒈𝒈𝒈 = 𝟏𝟏
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎+𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟒𝟒𝟒𝟒
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
• 𝒈𝒈𝒈𝒈 = 𝟏𝟏
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟒𝟒𝟒𝟒
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
• 𝒈𝒈𝒈𝒈 = 𝟏𝟏
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟒𝟒𝟒𝟒
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
• 𝒈𝒈𝒈𝒈 = 𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
• 𝒈𝒈𝒈𝒈 = 𝟗𝟗𝟗𝟗. 𝟗𝟗
• 𝒈𝒈𝒈𝒈 = 𝟗𝟗𝟗𝟗

184 de 357
Tercer semestre
2. Definir las hipótesis
•En este ejemplo, la hipótesis nula es
que no existe diferencia entre los
grupos (μ1 = μ2, equivalente a μ1-μ2 =
0). La hipótesis alternativa se
encuentra en este segmento del
enunciado del problema: “si existe
diferencia entre los grupos al tiempo
promedio destinado a ejercitarse”.
•La prueba queda planteada así:
•H0: μ1 = μ2
•H1: μ1 ≠ μ2
•La prueba es de dos extremos.

4. Se realizan los cálculos del

estadístico de prueba con la fórmula
correspondiente:
�
𝒙𝒙𝟏𝟏 − �
𝒙𝒙𝟐𝟐
•𝑬𝑬𝑬𝑬 =
𝒔𝒔𝟐𝟐 𝟐𝟐
𝟏𝟏 + 𝒔𝒔𝟐𝟐
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 3. Se determina la zona de rechazo calculando
𝟑𝟑.𝟏𝟏−𝟐𝟐.𝟕𝟕𝟕𝟕
los puntos críticos de un estadístico de prueba
•𝑬𝑬𝑬𝑬 = con una distribución t de Student con 98 grados
𝟏𝟏.𝟒𝟒𝟒𝟒 𝟏𝟏.𝟑𝟑𝟑𝟑
𝟓𝟓𝟓𝟓
+
𝟓𝟓𝟓𝟓 de libertad. Para calcularlos en Excel, es
𝟎𝟎.𝟑𝟑𝟑𝟑 suficiente contar con la significancia de la
•𝑬𝑬𝑬𝑬 =
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎+𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎 prueba (0.01):
𝟎𝟎.𝟑𝟑𝟑𝟑
•𝑬𝑬𝑬𝑬 = •PC= [Link](0.01,98)
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎+𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
•𝑬𝑬𝑬𝑬 =
𝟎𝟎.𝟑𝟑𝟑𝟑 •PC = 2.63
𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎 •Por la simetría de la distribución, los puntos
𝟎𝟎.𝟑𝟑𝟑𝟑
•𝑬𝑬𝑬𝑬 =
𝟎𝟎.𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
críticos son ± 2.63.
•𝑬𝑬𝑬𝑬 = 𝟏𝟏. 𝟑𝟑𝟑𝟑

No se rechaza Ho

5. Se dibuja la gráfica para determinar

la zona donde se encuentra el valor del
estadístico de prueba:

•El EP se localiza en la región de no Zona de

rechazo, así que H0 no se rechaza con α= 0.005
una significancia de 0.01. Es decir, no
No Rechazo α= 0.005
hay elementos para apoyar que existe
diferencia entre los grupos al tiempo Zona Zona
promedio destinado a ejercitarse. Rechazo Rechazo
PC = -2.63 PC = 2.63

EP = 1.36

185 de 357
Tercer semestre
Ejemplo 2

De acuerdo con una encuesta de origen-destino, el tiempo

de traslado al centro de la ciudad tiene una desviación
de 0.24 horas para los habitantes del norte y de 0.19
horas para los del sur. En una organización ubicada
en el centro de la ciudad, el director de recursos
humanos desea proponer una política de contratación
basada en el tiempo que toma el aspirante para trasladarse de
su domicilio a la organización, para ello toma una muestra aleatoria de 30 empleados
que viven al norte y otra de 35 que viven al sur: obtiene que el tiempo promedio de
traslado es de 1.56 horas para los empleados que viven en el norte y de 2.08 horas
para los que habitan en el sur. Entonces, con una significancia de 0.05, ¿existe
evidencia estadística que apoye la promoción de una política de contratación basada
en el tiempo de traslado del aspirante?

Solución:

Se procede como en los ejemplos anteriores.

186 de 357
Tercer semestre
1. Establecer los datos
2. Definir las hipótesis
Parámetro solicitado La hipótesis nula es que no existe diferencia entre los
μ1 – μ2: grupos (μ1 = μ2, lo cual es equivalente a μ1-μ2= 0). La
�𝟏𝟏 = 1.56
𝒙𝒙 hipótesis alternativa se encuentra implícita en este
segmento del enunciado del problema: “¿Existe
�𝟐𝟐 = 2.08
𝒙𝒙 evidencia estadística que apoye la promoción de una
𝒔𝒔𝟏𝟏 = 𝟎𝟎. 𝟐𝟐𝟐𝟐 política de contratación basada en el tiempo de traslado
del aspirante?”. Si hay una diferencia importante,
𝒔𝒔𝟐𝟐 = 𝟎𝟎. 𝟏𝟏𝟏𝟏
entonces se tiene el sustento para promover la política.
n1 = 30 La prueba queda planteada de la siguiente manera:
n2 = 35 H0 : μ1 = μ2
H1 : μ1≠μ2
α = 0.05 Es una prueba de dos extremos.

4. Se realizan los cálculos del estadístico

de prueba con la fórmula
correspondiente: 3. Se determina la zona de rechazo calculando
�
𝒙𝒙𝟏𝟏 − �
𝒙𝒙𝟐𝟐
𝑬𝑬𝑬𝑬 = los puntos críticos. Es necesario calcular el valor
𝝈𝝈𝟐𝟐𝟏𝟏 𝝈𝝈𝟐𝟐𝟐𝟐 de la probabilidad que se sustituirá en la fórmula
+ de Excel utilizando el valor de α. Como la prueba
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
𝟏𝟏. 𝟓𝟓𝟓𝟓 − 𝟐𝟐. 𝟎𝟎𝟎𝟎 es de dos extremos, la significancia se divide
𝑬𝑬𝑬𝑬 =
𝟎𝟎. 𝟐𝟐𝟐𝟐 𝟎𝟎. 𝟏𝟏𝟏𝟏 entre 2:
𝟑𝟑𝟑𝟑
+
𝟑𝟑𝟑𝟑 𝜶𝜶 𝟎𝟎. 𝟎𝟎𝟎𝟎
−𝟎𝟎. 𝟓𝟓𝟓𝟓 = = 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑬𝑬𝑬𝑬 = 𝟐𝟐 𝟐𝟐
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
−𝟎𝟎. 𝟓𝟓𝟓𝟓 La probabilidad es 1 – 0.025 = 0.975
𝑬𝑬𝑬𝑬 = PC = [Link](0.975)
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
−𝟎𝟎. 𝟓𝟓𝟓𝟓 PC = 1.96
𝑬𝑬𝑬𝑬 =
𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝑬𝑬𝑬𝑬 = −𝟒𝟒. 𝟒𝟒𝟒𝟒

Se rechaza Ho
Se dibuja la gráfica para determinar la
zona donde se encuentra el valor del
estadístico de prueba:
El EP se sitúa en la región de rechazo, así
que H0 se rechaza a un nivel de
significancia de .05. Es decir, hay Zona de
elementos para apoyar que existe
No Rechazo
evidencia estadística que apoye la α= 0.025 α= 0.025
promoción de una política de contratación Zona Zona
basada en el tiempo de traslado del
Rechazo Rechazo
aspirante.
PC =- 1.96 PC = 1.96
EP =-4.98

187 de 357
Tercer semestre
4.8. Pruebas de hipótesis sobre la
diferencia entre dos proporciones
En este apartado, se muestra la prueba que realiza la diferencia entre dos
proporciones poblacionales (P1 – P2). En esencia, la prueba establece que no existe
diferencia importante entre las proporciones de estas poblaciones (P1 = P2). Para
estimar esta diferencia, se emplea la diferencia de las proporciones muestrales
(𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐 ).

El estadístico de prueba a utilizar es el siguiente:

� − 𝜽𝜽𝟎𝟎 𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐

𝜽𝜽
𝑬𝑬𝑬𝑬 = =
𝝈𝝈𝜽𝜽� 𝝈𝝈𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐

•
Donde:
𝒑𝒑𝟏𝟏 (𝟏𝟏 − 𝒑𝒑𝟏𝟏 ) 𝒑𝒑𝟐𝟐 (𝟏𝟏 − 𝒑𝒑𝟐𝟐 )
𝝈𝝈𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐 = +
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐

El estadístico de prueba tiene una distribución normal estandarizada.

A continuación, se muestran ejemplos sobre la realización de esta prueba.

188 de 357
Tercer semestre
Ejemplo 1

El SUAYED de la FCA de la UNAM ofrece dos modalidades para cursar las carreras
impartidas en esa Facultad: universidad abierta y educación a distancia. En ambas
modalidades, se cuida la calidad de sus profesores para garantizar la excelencia
académica. Se sospecha que en la materia de Estadística II existe diferencia en la
reprobación, por lo que se seleccionaron al azar dos muestras: una de 80 alumnos
de educación a distancia y otra de 60 de universidad abierta, para comprobar si hay
diferencia en las modalidades. Los resultados de las muestras se presentan en la
siguiente tabla.

Alumnos de la muestra que aprueban y reprueban Estadística II

Modalidad Aprueba No aprueba Total
Educación a distancia 55 25 80
Universidad abierta 32 28 60
Total 87 53 140

Con una significancia del 5%, ¿se apoya que no existe diferencia entre modalidades
en la materia de Estadística II?

189 de 357
Tercer semestre
Solución:
Modalidad Proporción de alumnos que
Prueba de hipótesis: aprueba 𝑝𝑝𝑖𝑖 no aprueba 𝑞𝑞𝑖𝑖
𝑯𝑯𝟎𝟎 = 𝒑𝒑𝟏𝟏 = 𝒑𝒑𝟐𝟐
𝑯𝑯𝟏𝟏 = 𝒑𝒑𝟏𝟏 ≠ 𝒑𝒑𝟐𝟐 Educación a 55 25
= 0.69 = 0.31
distancia 80 80

Universidad 32 28
= 0.53 = 0.47
abierta 60 60

Total 87 53
= 0.62 = 0.38
140 140

Estadístico de prueba:
𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐
𝒁𝒁 =
𝒑𝒑𝟏𝟏 (𝟏𝟏 − 𝒑𝒑𝟏𝟏 ) 𝒑𝒑𝟐𝟐 (𝟏𝟏 − 𝒑𝒑𝟐𝟐 )
+
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
𝒁𝒁
𝟎𝟎. 𝟔𝟔𝟔𝟔 − 𝟎𝟎. 𝟓𝟓𝟓𝟓
=
𝟎𝟎. 𝟔𝟔𝟔𝟔(𝟏𝟏 − 𝟎𝟎. 𝟔𝟔𝟔𝟔) 𝟎𝟎. 𝟓𝟓𝟓𝟓(𝟏𝟏 − 𝟎𝟎. 𝟓𝟓𝟓𝟓)
+
𝟖𝟖𝟖𝟖 𝟔𝟔𝟔𝟔
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟔𝟔𝟔𝟔(𝟎𝟎. 𝟑𝟑𝟑𝟑) 𝟎𝟎. 𝟓𝟓𝟓𝟓(𝟎𝟎. 𝟒𝟒𝟒𝟒)
+
𝟖𝟖𝟖𝟖 𝟔𝟔𝟔𝟔
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
+
𝟖𝟖𝟖𝟖 𝟔𝟔𝟔𝟔
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝒁𝒁 = 𝟏𝟏. 𝟖𝟖𝟖𝟖

No se rechaza Ho
Punto crítico:
[Link](1-0.05/2) =
1.959
El EP se halla en la región de no rechazo,
así que H0 no se rechaza con una
significancia del 5%. Entonces, no hay
evidencia para rechazar la hipótesis nula de Zona de
que no existe diferencia entre las α= 0.025 No Rechazo α= 0.025
modalidades de acuerdo con la proporción
de estudiantes aprobados en la materia de Zona
Zona
Estadística II.
Rechazo Rechazo
PC = -1.96 PC = 1.96
EP = 1.81

190 de 357
Tercer semestre
Ejemplo 2

Una compañía dedicada a la venta de tiempos compartidos quiere lanzar una

campaña de publicidad para captar más clientes y desea saber si la proporción de
matrimonios que realiza la compra del tiempo compartido es igual a la proporción de
parejas en unión libre. Se toma una muestra de 100 matrimonios y otra de 100
parejas en unión libre. La información del resultado de la venta se muestra en la
siguiente tabla.

Resultado de la venta de tiempos compartidos en la muestra

de matrimonios y parejas en unión libre
Muestra Compra No compra Total
Matrimonios 63 37 100
Parejas en unión 47 53 100
libre
Total 110 90 200

Con una significancia del 0.1, ¿se apoya que hay diferencia en el resultado de la
venta de acuerdo con la situación marital?

191 de 357
Tercer semestre
Solución: Muestra Resultado de la venta
Compra No compra
Matrimonios 63 37
Prueba de hipótesis: = 0.63 = 0.37
100 100
𝑯𝑯𝟎𝟎 = 𝒑𝒑𝟏𝟏 = 𝒑𝒑𝟐𝟐
𝑯𝑯𝒂𝒂 = 𝒑𝒑𝟏𝟏 ≠ 𝒑𝒑𝟐𝟐 Parejas en 47 53
= 0.47 = 0.53
unión libre 100 100

Total 110 90
= 0.55 = 0.45
200 200

Estadístico de prueba:
𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐
𝒁𝒁 =
𝒑𝒑𝟏𝟏 (𝟏𝟏 − 𝒑𝒑𝟏𝟏 ) 𝒑𝒑𝟐𝟐 (𝟏𝟏 − 𝒑𝒑𝟐𝟐 )
𝒏𝒏𝟏𝟏 + 𝒏𝒏
𝟎𝟎. 𝟔𝟔𝟔𝟔 − 𝟎𝟎.𝟐𝟐𝟒𝟒𝟒𝟒
𝒁𝒁 =
𝟎𝟎. 𝟔𝟔𝟔𝟔(𝟏𝟏 − 𝟎𝟎. 𝟔𝟔𝟔𝟔) 𝟎𝟎. 𝟒𝟒𝟒𝟒(𝟏𝟏 − 𝟎𝟎. 𝟒𝟒𝟒𝟒)
𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏𝟏𝟏
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟔𝟔𝟔𝟔(𝟎𝟎. 𝟑𝟑𝟑𝟑) 𝟎𝟎. 𝟒𝟒𝟒𝟒(𝟎𝟎. 𝟓𝟓𝟓𝟓)
𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏𝟏𝟏
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
+
𝟏𝟏𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏𝟏𝟏
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝒁𝒁 = 𝟐𝟐. 𝟑𝟑𝟑𝟑

Se rechaza Ho

Punto crítico:
[Link](1-0.10/2) = 1.644
El EP se sitúa en la región de rechazo, por lo
que H0 se rechaza con una significancia del Zona de
α= 0.05 No Rechazo
10%. Luego, hay evidencia para no apoyar α= 0.05
que no existe diferencia en la proporción de Zona
matrimonios y parejas en unión libre que Zona
Rechazo Rechazo
realizan la compra del tiempo compartido.
PC = -1.64 PC = 1.64

EP =2.30

192 de 357
Tercer semestre
4.9. Prueba para la diferencia
entre dos varianzas
La última prueba que se abordará en esta unidad se utilizará para comparar dos
varianzas. A diferencia de las pruebas para comparar dos medias o dos
proporciones, la distribución del estadístico de prueba es sesgada a la derecha, la
cual es la distribución F (mencionada al final de la segunda unidad). Para emplear
esta distribución, se parte del supuesto de que las muestras provienen de
poblaciones con distribución normal y que las dispersiones son las mismas. Si no se
cumple el supuesto, la prueba caerá en la región de rechazo.

El estadístico de prueba es el siguiente:

𝑺𝑺𝟐𝟐𝟏𝟏
𝑭𝑭 =
𝑺𝑺𝟐𝟐𝟐𝟐

•
Donde:

𝑺𝑺𝟐𝟐𝟏𝟏 = la varianza muestral de la población 1

𝑺𝑺𝟐𝟐𝟐𝟐 = la varianza muestral de la población 2

Al igual que las distribuciones t de Student y 𝝌𝝌𝟐𝟐 , la distribución F depende del número
de elementos de las muestras extraídas de cada población, así que esta distribución
tiene como parámetros los grados de libertad: el tamaño de la muestra de la primera
población menos uno y el tamaño de la muestra de la segunda población menos uno.
Se acostumbra colocar la varianza más grande de las muestras en el numerador. A
continuación, se desglosa un ejemplo.

193 de 357
Tercer semestre
Ejemplo

Una escuela tiene como política aplicar exámenes departamentales de cada materia
para comprobar que los conocimientos de los alumnos es el mismo
independientemente del grupo al que pertenezcan, con una significancia del 0.1. El
coordinador del área de matemáticas quiere saber si hay variación entre las
calificaciones obtenidas de los dos grupos de Estadística II, y aplica el examen
parcial de la materia a una muestra de diez alumnos de cada grupo. Las
calificaciones obtenidas en cada muestra son las siguientes:

Calificaciones
Grupo 1 Grupo 2
4 7
8 9
9 6
3 6
5 8
5 7
8 8
5 7
8 10
9 7

194 de 357
Tercer semestre
Respuesta:

3. Definir las hipótesis

1. Parámetros: 𝝈𝝈𝟐𝟐𝟏𝟏 , 𝝈𝝈𝟐𝟐𝟐𝟐
2. Calcular las varianzas muestrales •En este ejemplo, la hipótesis nula
y los grados de libertad. es que no existe diferencia entre
Utilizando las fórmulas de Excel se los grupos (𝝈𝝈𝟐𝟐𝟏𝟏 = 𝝈𝝈𝟐𝟐𝟐𝟐 ). La hipótesis
obtiene: alternativa se encuentra en este
𝒔𝒔𝟐𝟐𝟏𝟏 = 𝟒𝟒. 𝟗𝟗𝟗𝟗 segmento del enunciado del
𝒔𝒔𝟐𝟐𝟐𝟐 = 𝟏𝟏. 𝟔𝟔𝟔𝟔 problema: “hay variación entre las
𝟐𝟐 𝟐𝟐
Como 𝒔𝒔𝟏𝟏 >𝒔𝒔𝟐𝟐 , se ubicará el valor de calificaciones obtenidas de los
dos grupos de Estadística
la primera muestra en el numerador
Inferencial”.
del estadístico de prueba.
La prueba queda planteada así:
Los grados de libertad asociados al
numerador son 10 – 1 = 9, el cual H0 : 𝝈𝝈𝟐𝟐𝟏𝟏 = 𝝈𝝈𝟐𝟐𝟐𝟐
es el mismo para los del H1 : 𝝈𝝈𝟐𝟐𝟏𝟏 ≠ 𝝈𝝈𝟐𝟐𝟐𝟐
denominador, ya que ambos Esta prueba es de dos extremos.
tamaños de muestra constan de 10
elementos.

5. Se realizan los cálculos del

estadístico de prueba utilizando la 4. Como se trata de una prueba de
fórmula correspondiente: dos colas y además está sesgada,
𝑺𝑺𝟐𝟐𝟏𝟏 se deben determinar dos valores
𝑭𝑭 = 𝟐𝟐 críticos a través de la siguiente
𝑺𝑺𝟐𝟐 fórmula de Excel, que requiere del
𝟒𝟒. 𝟗𝟗𝟗𝟗
𝑭𝑭 = valor de α y de los grados de
𝟏𝟏. 𝟔𝟔𝟔𝟔 libertad:
𝑭𝑭 = 𝟑𝟑. 𝟎𝟎𝟎𝟎 𝜶𝜶 𝟎𝟎. 𝟏𝟏
= = 𝟎𝟎. 𝟎𝟎𝟎𝟎
𝟐𝟐 𝟐𝟐
PC1 = [Link](0.05,9,9)=3.17
PC2 = [Link](0.95,9,9)=0.31

No se rechaza Ho
6. Se dibuja la gráfica para
determinar las zonas de rechazo y α= 0.05
comparar el estadístico de prueba:
El EP se sitúa en la región de no
rechazo, así que H0 no se rechaza
con una significancia del 10%.
Luego, no hay evidencia para
rechazar que no hay variación Zona de α= 0.05
entre las calificaciones obtenidas Zona no
de los dos grupos de Estadística Rechazo Rechazo Zona
Inferencial. Rechazo
PC = 3.17
PC = 0.31 EP = 3.06

Área acumulada 0.05

Área acumulada 0.95

195 de 357
Tercer semestre
RESUMEN
En esta unidad, se trató el tema de prueba de hipótesis, consistente en un contraste
de dos supuestos sobre el valor de un parámetro, el cual se prueba con los
resultados de una muestra. Se analizó cómo plantear hipótesis, se mencionaron los
tipos de errores que pueden cometerse, los tipos de pruebas que pueden realizarse y
la forma de delimitar las regiones de aceptación y rechazo. Se explicó también cómo
efectuar pruebas de hipótesis con los métodos de intervalo, estadístico de prueba y
p-value. Además, con el apoyo de Excel, se trabajaron ejercicios para realizar
pruebas con la media y la proporción, así como con la diferencia de medias,
proporciones y varianzas.

196 de 357
Tercer semestre
BIBLIOGRAFÍA

SUGERIDA

Autor Capítulo Páginas

Anderson, S. (2016) 9 348-405
Levin, R. (2010) 8 319-358
9 359-402
Lind, D. (2015) 10 333-370
11 371-409

197 de 357
Tercer semestre
UNIDAD 5
Pruebas de hipótesis con la
distribución ji cuadrada

198 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno relacionará los conceptos de prueba de hipótesis con
la distribución ji cuadrada.

TEMARIO DETALLADO
(10 horas)

5. Pruebas de hipótesis con la distribución ji cuadrada

5.1. La distribución ji cuadrada, χ2
5.2. Pruebas de hipótesis para la varianza de una población
5.3. Prueba para la diferencia entre n proporciones
5.4. Pruebas de bondad de ajuste a distribuciones teóricas
5.4.1. Ajuste a una distribución Normal
5.4.2. Ajuste a una distribución Poisson
5.4.3. Ajuste a una distribución Binomial
5.5. Pruebas sobre la independencia entre dos variables
5.6. Pruebas de homogeneidad

199 de 357
Tercer semestre
INTRODUCCIÓN
En la unidad anterior, se dieron las bases para realizar pruebas de hipótesis para
contrastar valores de parámetros de una población, como la media y una proporción.
Posteriormente, se contrastaron medias, proporciones y varianzas de poblaciones
independientes utilizando estadísticos de prueba con distribuciones normal, t de
Student y F. Ahora, en esta unidad, se empleará otra distribución muestral, la ji
cuadrada (χ2), útil no solamente para realizar pruebas relacionadas con una varianza
poblacional, sino también para validar si una muestra se ajusta a una distribución
teórica, si hay un cambio en una distribución, si dos variables son independientes o si
dos muestras proceden de la misma población.

Primero, se expondrá la distribución χ2; después, se mostrará su uso para contrastar

hipótesis relacionadas con la varianza poblacional, diferencia de proporciones,
bondad de ajuste, independencia y homogeneidad.

Para el profesional egresado de la Facultad de

Contaduría y Administración, el
conocimiento y manejo de esta distribución
le dará una herramienta adicional para
una mejor toma de decisiones.

200 de 357
Tercer semestre
5.1. La distribución
ji cuadrada, χ2
En la última sección de la tercera unidad, se utilizó la distribución 𝝌𝝌𝟐𝟐 (ji cuadrada)
para estimar un intervalo para una varianza poblacional. Teóricamente, esta
distribución es un caso de otra distribución conocida como gamma; el parámetro que
determina su distribución son los grados de libertad, es decir, el número de
observaciones que pueden variar libremente. Las características de esta distribución
son las siguientes:

La distribución se encuentra definida para valores

positivos.

La forma de una distribución 𝝌𝝌𝟐𝟐 depende de los

grados de libertad (gl), por lo que hay un número
infinito de distribuciones.

El área bajo la curva es uno.

La distribución es sesgada a la derecha.

201 de 357
Tercer semestre
En distribuciones muestrales, se emplea el estadístico

(𝒏𝒏 − 𝟏𝟏)𝒔𝒔𝟐𝟐
𝝌𝝌𝟐𝟐 =
𝝈𝝈𝟐𝟐

•
Donde:

n = tamaño de muestra
𝝈𝝈𝟐𝟐 = varianza poblacional
𝒔𝒔𝟐𝟐 = varianza muestral

El estadístico tiene una distribución 𝝌𝝌𝟐𝟐 con n – 1 grados de libertad.

Este resultado es válido si la muestra proviene de una población con distribución

normal.

5.2. Pruebas de hipótesis para la

varianza de una población
En la unidad anterior, se realizaron pruebas de hipótesis relacionadas con una
media, una proporción, diferencia de medias y diferencia de proporciones, y se
finalizó con pruebas entre dos varianzas. En este capítulo, se expone cómo efectuar
una prueba para la varianza de una población.

Como se ha mencionado en las unidades pasadas, en ocasiones se requiere hacer

inferencias sobre la varianza poblacional. Así como en la unidad anterior, en este
caso se plantea una hipótesis nula y otra alternativa que involucra a la varianza, pero
el estadístico de prueba es:

202 de 357
Tercer semestre
(𝒏𝒏 − 𝟏𝟏)𝒔𝒔𝟐𝟐
𝝌𝝌𝟐𝟐 =
𝝈𝝈𝟐𝟐

Y la distribución asociada es una 𝝌𝝌𝟐𝟐 con n – 1 grados de libertad.

A continuación, se analizan dos ejemplos.

Ejemplo 1.
Un call center tiene como criterio de calidad que la
duración de sus llamadas tenga una desviación
estándar de 1.5 respecto al promedio de cinco minutos
El gerente del call center sospecha que la desviación
es mayor, para confirmarlo elige una muestra de 50
llamadas y obtiene una desviación de 1.37 minutos.
¿Se puede afirmar con un nivel de confianza del 95%
que la sospecha del gerente es correcta?
Parámetro Datos:
solicitado:
𝝈𝝈 𝝈𝝈 = 𝟏𝟏. 𝟓𝟓
𝒏𝒏 = 𝟓𝟓𝟓𝟓
𝒔𝒔 = 𝟏𝟏. 𝟑𝟑𝟑𝟑
Nivel de confianza: 95% = 0.95
Significancia: 𝜶𝜶 = 𝟏𝟏 − 𝟎𝟎. 𝟗𝟗𝟗𝟗 = 𝟎𝟎. 𝟎𝟎𝟎𝟎
Grados de libertad: n – 1 = 50 – 1 = 49

Cálculo del estadístico de prueba:

Hipótesis: (𝟓𝟓𝟓𝟓 − 𝟏𝟏) � (𝟏𝟏. 𝟑𝟑𝟑𝟑)𝟐𝟐

𝝌𝝌𝟐𝟐 =
(𝟏𝟏. 𝟓𝟓)𝟐𝟐
𝑯𝑯𝟎𝟎 = 𝝈𝝈𝟐𝟐 = (𝟏𝟏. 𝟓𝟓)𝟐𝟐 (𝟒𝟒𝟒𝟒) � (𝟏𝟏. 𝟑𝟑𝟑𝟑)𝟐𝟐
𝝌𝝌𝟐𝟐 =
𝑯𝑯𝟏𝟏 = 𝝈𝝈𝟐𝟐 > (𝟏𝟏. 𝟓𝟓)𝟐𝟐 (𝟏𝟏. 𝟓𝟓)𝟐𝟐
(𝟒𝟒𝟒𝟒) � 𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
𝝌𝝌𝟐𝟐 =
𝟐𝟐. 𝟐𝟐𝟐𝟐

203 de 357
Tercer semestre
Cálculo del punto crítico
Con el empleo de la función de Ms-Excel:

[Link](probabilidad,grados_de_libertad)

Se obtiene:

[Link](0.05,49) = 66.3386

En la figura 1, se ilustra la región donde cae el estadístico de prueba:

Figura 1. Resultado de la prueba de hipótesis Ho: 𝝈𝝈𝟐𝟐 = 1.5 contra Ho: 𝝈𝝈𝟐𝟐 > 1.5

No se rechaza Ho
Zona de
no
Rechazo

α= 0.05
Zona
Rechazo
PC = 66.33
EP = 40.87

La figura anterior muestra la distribución del estadístico de prueba asumiendo que la hipótesis
nula es cierta. Como la prueba es unilateral, en este caso la región de rechazo se encuentra en el
extremo derecho de la curva, a partir del punto crítico (66.33), ello significa que, si la prueba tiene
un valor mayor a este punto, la hipótesis nula se rechaza. En la figura, se observa que el resultado
de la prueba (40.87) es menor al punto crítico, por tanto, no se rechaza la hipótesis nula.
En conclusión, no existe evidencia estadística para rechazar la hipótesis nula, es decir, no se apoya
la sospecha del gerente que la desviación estándar sea mayor a 1.5 minutos.

204 de 357
Tercer semestre
Ejemplo 2.

Una empresa realiza periódicamente una encuesta de clima laboral entre los
empleados. Recientemente, varios departamentos solicitan que esta encuesta ya no
se realice con la misma periodicidad, pues distrae las labores de los subordinados.
En defensa de la encuesta, el director de recursos humanos sostiene que una
variabilidad de 7 minutos no afecta el desempeño. Para comprobar que la
variabilidad es de 7, elige una muestra de 20 empleados y obtiene un resultado de
6.7 minutos. ¿Se puede afirmar, con un nivel de confianza del 90%, que el director
está en lo correcto?

Parámetro Datos:
solicitado:
𝝈𝝈 𝝈𝝈 = 𝟕𝟕
𝒏𝒏 = 𝟐𝟐𝟐𝟐
𝒔𝒔 = 𝟔𝟔. 𝟕𝟕
Nivel de confianza: 90% = 0.90
Significancia: 𝜶𝜶 = 𝟏𝟏 − 𝟎𝟎. 𝟗𝟗 = 𝟎𝟎. 𝟏𝟏
𝟎𝟎. 𝟏𝟏
𝜶𝜶 = = 𝟎𝟎. 𝟎𝟎𝟎𝟎
𝟐𝟐
Grados de libertad: n – 1 = 20 – 1 = 19

Cálculo del estadístico de prueba:

(𝟐𝟐𝟐𝟐 − 𝟏𝟏) � (𝟔𝟔. 𝟕𝟕)𝟐𝟐

Hipótesis: 𝝌𝝌𝟐𝟐 =
(𝟕𝟕)𝟐𝟐
(𝟏𝟏𝟏𝟏) � 𝟒𝟒𝟒𝟒. 𝟖𝟖𝟖𝟖
𝑯𝑯𝟎𝟎 = 𝝈𝝈𝟐𝟐 = (𝟕𝟕)𝟐𝟐 𝝌𝝌𝟐𝟐 =
𝑯𝑯𝟏𝟏 = 𝝈𝝈𝟐𝟐 ≠ (𝟕𝟕)𝟐𝟐 𝟒𝟒𝟒𝟒
𝟐𝟐
𝟖𝟖𝟖𝟖𝟖𝟖. 𝟗𝟗𝟗𝟗
𝝌𝝌 =
𝟒𝟒𝟒𝟒
𝝌𝝌𝟐𝟐 = 𝟏𝟏𝟏𝟏. 𝟒𝟒

205 de 357
Tercer semestre
Cálculo del punto crítico
Con Excel, se obtienen los puntos críticos. Valor crítico superior:

[Link] (0.05,19) = 30.14

Valor crítico inferior:

[Link] (0.95,19) = 10.11

En la figura 2, se ilustra la región donde cae el estadístico de prueba:

Figura 2. Resultado de la prueba de hipótesis Ho: = 7 contra Ho: ≠ 7

No se rechaza Ho

α= 0.05

Zona de
no
Rechazo α= 0.05
Zona
Rechazo Zona
Rechazo
PC = 30.14
PC =10.11
EP = 17.4

Área acumulada 0.05

Área acumulada 0.95

La figura anterior muestra la distribución del estadístico de prueba asumiendo que la hipótesis
nula es cierta. Como la prueba es bilateral, la región de rechazo se encuentra en ambos extremos
de la curva. La región de aceptación se halla entre los puntos críticos (10.11 y 30.14), esto significa
que, si la prueba tiene un valor en esta región, la hipótesis nula se acepta. En la figura, se observa
que el resultado de la prueba (17.4) se encuentra en la zona de aceptación, por tanto, no se
rechaza la hipótesis nula. En conclusión, no existe evidencia estadística para rechazar la hipótesis
nula: se apoya la defensa del director de recursos humanos.

206 de 357
Tercer semestre
5.3. Prueba para la diferencia
entre n proporciones
En la sección anterior, se mostró el empleo de la distribución 𝝌𝝌𝟐𝟐 para hacer un
contraste de hipótesis de una varianza poblacional. A partir de esta sección, se
analizará su utilidad en la comparación de datos observados contra esperados, y de
esta manera apoyar o no un comportamiento teórico.

Estadístico de prueba que se empleará a partir de esta sección:

𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

•
Donde:
𝒐𝒐𝒊𝒊 = valor observado
𝒆𝒆𝒊𝒊 = valor esperado
k = número de categorías

Este estadístico tendrá una distribución 𝝌𝝌𝟐𝟐 . Los grados de libertad varían según el
contexto.

En esta sección, se aplicará el estadístico mencionado para apoyar o no que un

conjunto de datos tiene una distribución multinomial.

En el curso de Estadística Descriptiva, se presentó la distribución binomial, la cual

tiene como una de sus características que cada uno de los n ensayos independientes
solamente ofrece dos resultados posibles manteniéndose constante la probabilidad
de éxito. Cuando existen al menos tres resultados posibles, los cuales son

207 de 357
Tercer semestre
mutuamente excluyentes y cada uno con una probabilidad de ocurrencia de manera
que su suma da uno, se está frente a una distribución multinomial.

Supóngase que históricamente la proporción de estudiantes de Administración que

obtiene una calificación mayor a 9 en Estadística II es 0.05; entre 8 y 9, 0.15; entre 7
y 8, 0.55; y el resto, menor a 7. Se ha propuesto una estrategia de enseñanza que se
espera mejore el aprovechamiento de la materia en los estudiantes de
Administración. Un grupo piloto de 140 alumnos registró los siguientes resultados:

Rango de
Nivel Alumnos
calificación
A 9.1-10 15
B 8.1-9.0 35
C 7.1-8.0 50
D Hasta 7.0 40
Total 140

¿Se podría apoyar con un nivel de confianza de 95% que la estrategia modificó el
aprovechamiento de los estudiantes de Administración en Estadística II?
Obsérvese que el tratamiento de la información se ajusta al de una distribución
multinomial porque hay más de dos resultados y cada alumno nada más puede estar
en una categoría. Se denotará como pA, pB, pC y pD a la proporción de alumnos en
cada nivel, y se aplicará una prueba de hipótesis para determinar si la nueva
estrategia modifica el desempeño.

La hipótesis nula y alternativa para probar si la estrategia modifica o no el

desempeño es la siguiente:

𝐻𝐻0 : 𝑝𝑝𝐴𝐴 = 0.05; 𝑝𝑝𝐵𝐵 = 0.15; 𝑝𝑝𝐶𝐶 = 0.55; 𝑝𝑝𝐷𝐷 = 0.25

𝐻𝐻𝑎𝑎 : 𝑙𝑙𝑙𝑙𝑙𝑙 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑛𝑛𝑛𝑛 𝑠𝑠𝑠𝑠𝑠𝑠 𝑙𝑙𝑙𝑙𝑙𝑙 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 ℎ𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛

208 de 357
Tercer semestre
Asumiendo como cierta la hipótesis nula, se esperaría que los 140 alumnos se
distribuyeran de la siguiente manera:

Rango de Proporción Alumnos

Nivel
calificación bajo Ho esperados
A 9.1-10 0.05 𝟏𝟏𝟏𝟏𝟏𝟏 ∙ 𝟎𝟎. 𝟎𝟎𝟎𝟎 = 𝟕𝟕
B 8.1-9.0 0.15 𝟏𝟏𝟏𝟏𝟏𝟏 ∙ 𝟎𝟎. 𝟏𝟏𝟏𝟏 = 𝟐𝟐𝟐𝟐
C 7.1-8.0 0.55 𝟏𝟏𝟏𝟏𝟏𝟏 ∙ 𝟎𝟎. 𝟓𝟓𝟓𝟓 = 𝟕𝟕𝟕𝟕
D Hasta 7.0 0.25 𝟏𝟏𝟏𝟏𝟏𝟏 ∙ 𝟎𝟎. 𝟐𝟐𝟐𝟐 = 𝟑𝟑𝟑𝟑
Total 140

Se calcula el estadístico de prueba que tendrá una distribución 𝝌𝝌𝟐𝟐 con k – 1 grados
de libertad, en este caso, k = 4:
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
𝟐𝟐
𝟐𝟐
(𝟏𝟏𝟏𝟏 − 𝟕𝟕) (𝟑𝟑𝟑𝟑 − 𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟓𝟓𝟓𝟓 − 𝟕𝟕𝟕𝟕)𝟐𝟐 (𝟒𝟒𝟒𝟒 − 𝟑𝟑𝟑𝟑)𝟐𝟐
𝝌𝝌 = + + +
𝟕𝟕 𝟐𝟐𝟐𝟐 𝟕𝟕𝟕𝟕 𝟑𝟑𝟑𝟑
𝝌𝝌𝟐𝟐 = 𝟗𝟗. 𝟏𝟏 + 𝟗𝟗. 𝟑𝟑 + 𝟗𝟗. 𝟓𝟓 + 𝟎𝟎. 𝟕𝟕
𝝌𝝌𝟐𝟐 = 𝟐𝟐𝟐𝟐. 𝟕𝟕

Se realiza una prueba bilateral. Con Microsoft Excel (2013), se calcula el punto crítico
superior:
[Link](0.05/2,3) = 9.3
Y el inferior:
[Link](1-0.05/2,3) = 0.2

En la figura 1, se ilustra la región donde cae el estadístico de prueba.

209 de 357
Tercer semestre
Figura 1. Resultado de la prueba de hipótesis

Se rechaza Ho

α= 0.025

Zona de
no
Rechazo α= 0.025
Zona Zona
Rechazo Rechazo

PC = 9.3
PC =0.2 EP = 28.7

Área acumulada 0.025

Área acumulada 0.975

Fuente: elaboración propia.

La figura anterior muestra la distribución del estadístico de prueba asumiendo que la

hipótesis nula es cierta. Debido a que la prueba es bilateral, la región de rechazo se
encuentra en ambos extremos de la curva. La región de aceptación se halla entre los
puntos críticos (0.2 y 9.3), lo cual significa que, si la prueba tiene un valor en esta
región, la hipótesis nula se acepta. En la figura se observa que el resultado de la
prueba (28.7) se sitúa en la zona de rechazo, por tanto, se rechaza la hipótesis nula.

En conclusión, hay evidencia estadística para rechazar la hipótesis nula: la estrategia

modificó el aprovechamiento de los estudiantes de Administración en Estadística II.

210 de 357
Tercer semestre
5.4. Pruebas de bondad de ajuste
a distribuciones teóricas
Como se ha estudiado hasta este punto, tanto las técnicas de estimación como las
de contraste de hipótesis se realizan con la información de una muestra. A veces,
se pretende conocer si la población de la que proviene la muestra se ajusta a una
distribución teórica. En esta sección, se utilizará la distribución 𝝌𝝌𝟐𝟐 para probar si
un conjunto de información se ajusta a una distribución Normal, Poisson o
Binomial. En las tres distribuciones el proceso para realizar la prueba es similar:

Se forman categorías.

Se realizan conteos en cada categoría.

Se estima el valor esperado de elementos en cada categoría.

Se contrasta la hipótesis.

• H0: los datos se ajustan a la distribución

• H1: los datos no se ajustan a la distribución

211 de 357
Tercer semestre
Con el estadístico de prueba:
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

•
Donde:
𝒐𝒐𝒊𝒊 = valor observado
𝒆𝒆𝒊𝒊 = valor esperado
k = número de categorías

Asumiendo cierta la hipótesis nula, este estadístico tendrá una distribución 𝝌𝝌𝟐𝟐 ,
con k – p – 1 grados de libertad, donde k es el número de categorías y p los
parámetros de la distribución teórica.

La hipótesis nula se rechaza si el valor del estadístico de prueba resulta mayor al

punto crítico de la distribución teórica.

A continuación, se muestra cómo realizar la prueba de bondad de ajuste para una

distribución normal.

5.4.1. Ajuste a una distribución normal

Para explicar la prueba para el ajuste a una distribución normal, se utilizará el

siguiente ejemplo.

Los resultados de una prueba realizada a 110 aspirantes a ocupar una plaza laboral
se muestran a continuación.

212 de 357
Tercer semestre
80.0 60.0 56.7 54.2 52.5 50.8 48.3 46.7 45.0 42.5 36.7
69.2 59.2 56.7 53.3 51.7 50.0 48.3 46.7 45.0 42.5 36.7
69.2 59.2 56.7 53.3 51.7 50.0 48.3 45.8 44.2 41.7 36.7
69.2 59.2 56.7 53.3 51.7 49.2 47.5 45.8 44.2 41.7 34.2
69.2 58.3 56.7 53.3 51.7 49.2 47.5 45.8 44.2 40.8 34.2
68.3 58.3 55.8 53.3 50.8 49.2 47.5 45.0 44.2 40.8 33.3
64.2 57.5 55.8 53.3 50.8 49.2 47.5 45.0 43.3 40.0 32.5
63.3 57.5 55.8 52.5 50.8 49.2 46.7 45.0 43.3 38.3 32.5
61.7 56.7 55.0 52.5 50.8 48.3 46.7 45.0 43.3 37.5 29.2
60.8 56.7 54.2 52.5 50.8 48.3 46.7 45.0 42.5 36.7 37.2

A fin de precisar los puntajes que deben tener los candidatos para pasar a la
siguiente etapa, se quiere probar primeramente que los datos provienen de una
distribución normal con un nivel de confianza de 95%.

Como la distribución normal es continua, para probar el ajuste a esta distribución, se

categorizará la información en deciles.

En primer lugar, se estimarán los parámetros de la distribución (media y desviación

estándar) con la información de la muestra.

El estimador de la media (μ) es el promedio muestral; y el de la desviación estándar

(σ), la desviación muestral.

Así:

213 de 357
Tercer semestre
𝟖𝟖𝟖𝟖. 𝟎𝟎 + 𝟔𝟔𝟔𝟔. 𝟐𝟐 + ⋯ + 𝟐𝟐𝟐𝟐. 𝟐𝟐 + 𝟑𝟑𝟑𝟑. 𝟐𝟐
𝝁𝝁
�= = 𝟒𝟒𝟒𝟒. 𝟕𝟕
𝟏𝟏𝟏𝟏𝟏𝟏

•
Y:

(𝟖𝟖𝟖𝟖. 𝟎𝟎 − 𝟒𝟒𝟒𝟒. 𝟕𝟕)𝟐𝟐 +(𝟔𝟔𝟔𝟔. 𝟐𝟐 − 𝟒𝟒𝟒𝟒. 𝟕𝟕)𝟐𝟐 + ⋯ + 𝟐𝟐𝟐𝟐. 𝟐𝟐 − 𝟒𝟒𝟒𝟒. 𝟕𝟕 𝟐𝟐 + (𝟑𝟑𝟑𝟑. 𝟐𝟐 − 𝟒𝟒𝟒𝟒. 𝟗𝟗)𝟐𝟐
𝝈𝝈
�= = 𝟖𝟖. 𝟗𝟗
𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟏𝟏

Se va a probar, entonces, si la información se ajusta a una distribución normal con

media 49.7 y desviación estándar de 8.9.

Para realizar la prueba, se formarán 10 categorías y cada una concentrará una

probabilidad de 10%. Estas categorías se determinarán con los cuantiles z de una
distribución normal estándar; una vez conocido este valor, se procede a convertirlo
en la métrica de la prueba.

En la siguiente tabla se muestran los puntos de corte.

Tabla. Cálculo de los puntos de corte para formar las categorías que se
utilizarán en la prueba de bondad de ajuste a una distribución normal

Corte z Puntaje
49.7+z·8.9
1 -1.28 38.29
2 -0.84 42.21
3 -0.52 45.03
4 -0.25 47.45
5 0.00 49.70
6 0.25 51.95
7 0.52 54.37
8 0.84 57.19
9 1.28 61.11

214 de 357
Tercer semestre
La tabla anterior consta de tres columnas: corte, z y puntaje. En la primera columna
solamente se enumeran los puntos de corte que se requieren para dividir la
distribución teórica en 10 partes iguales. La segunda (z) es el cuantil de una
distribución normal estándar que acumula un área de 0.1 desde el último corte a la
izquierda. Y la tercera es la conversión del valor del cuantil z a la métrica del
examen. Esta conversión se fundamenta en que la distribución normal estándar se
calcula así:

𝑿𝑿 − 𝝁𝝁
𝒁𝒁 =
𝝈𝝈

•
Donde:
Z = variable estandarizada
X = variable original
μ = media de X
σ = desviación de X
•
Al despejar X, se obtiene:

𝑿𝑿 = 𝝁𝝁 + 𝒁𝒁 � 𝝈𝝈

Así, el punto de corte en la métrica del examen se obtiene sumando al promedio

(49.7) el producto del cuantil por la desviación estándar (8.9).

En la figura 2, se ilustra la segmentación de la distribución teórica con el empleo de

los puntos de corte calculados.

Figura 2. Segmentación de la distribución teórica en 10 áreas iguales

215 de 357
Tercer semestre
0.04
0.03
Probabilidad

0.02
0.01
0.00

20 30 40 50 60 70 80

Puntaje de la prueba

Fuente: elaboración propia con empleo del paquete estadístico R 9

La figura anterior muestra la segmentación en 10 áreas del mismo tamaño (0.1) de

una distribución normal con media de 49.7 y desviación estándar de 8.9. El siguiente
paso consiste en realizar un conteo de los aspirantes que caen en cada categoría
(área) y compararlo con su número esperado: (110) (0.1) = 11. La siguiente tabla
presenta las frecuencias observadas y esperadas para cada categoría.

Tabla. Frecuencias observadas y esperadas por categoría

Frecuencia
Categoría Observada Estimada
1 12 11
2 6 11
3 17 11
4 8 11
5 14 11
6 12 11
7 12 11
8 11 11
9 9 11

9R Core Team (2014). R: A language and environment for statistical computing. R Foundation for
Statistical Computing, Vienna, Austria. URL [Link]

216 de 357
Tercer semestre
10 9 11
Total 110 110

Una vez que se cuenta con las frecuencias observadas y estimadas para cada
categoría, se procede a realizar la prueba con el estadístico de prueba:
𝒌𝒌
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌𝟐𝟐 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

•
Sustituyendo los valores, se tiene:

(𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟔𝟔 − 𝟏𝟏𝟏𝟏)𝟐𝟐 𝟗𝟗 − 𝟏𝟏𝟏𝟏 𝟐𝟐

𝝌𝝌𝟐𝟐 = + +⋯+ = 𝟖𝟖. 𝟐𝟐
𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏

A partir de la hipótesis nula, el estadístico de prueba tiene una distribución 𝝌𝝌𝟐𝟐 con

k – p – 1 grados de libertad. En este caso, k = 10 y p = 2 porque la distribución

normal tiene dos parámetros (media y desviación estándar): se comparará el valor

del estadístico de prueba con el punto crítico de una distribución 𝝌𝝌𝟐𝟐 con 10 – 2 – 1 =

7 grados de libertad que corta la curva en dos zonas: una con área de 0.05 a su
derecha y la otra de 0.95.

Con Microsoft Excel (2013), se calcula el punto crítico de esta distribución así:

[Link](0.05, 7) = 14.07

Como el punto crítico es mayor al valor del estadístico de prueba, no se tiene

evidencia estadística para rechazar la hipótesis nula. Luego, se apoya la hipótesis de
que la muestra proviene de una población con distribución normal.

5.4.2. Ajuste a una distribución Poisson

En este apartado, se muestra un ejemplo donde se prueba la bondad de ajuste a una

distribución Poisson.

217 de 357
Tercer semestre
En un establecimiento comercial, se han
incrementado las quejas respecto a que no hay
suficiente personal para atender a la clientela. Por
su parte, los empleados solicitan al gerente que
contrate más personal debido a que la demanda
los supera. Con la intención de justificar la
contratación de más personal, el gerente, durante una semana, tomó una muestra
aleatoria de 60 periodos de 15 minutos y registró el número de clientes que acuden
al establecimiento. Los registros son los siguientes:

10 6 9 8 12 9
20 15 1 20 16 1
14 16 18 0 19 9
17 1 5 4 10 4
10 20 13 10 16 19
8 17 13 9 1 6
5 10 15 10 14 9
10 15 8 3 11 8
18 17 14 17 12 9
3 2 14 15 16 1

Para realizar simulaciones, se debe estar convencido de que la distribución de las

llegadas sigue una distribución Poisson. Con un nivel de confianza del 95%, se
apoya la hipótesis de que las llegadas se ajustan a una distribución Poisson.

Para realizar la prueba, primero se construye una tabla de frecuencia de llegadas:

Llegadas Casos
1 6
2 1
3 2
4 2
5 2
6 2
7 0

218 de 357
Tercer semestre
8 4
9 6
10 7
11 1
12 2
13 2
14 4
15 4
16 4
17 4
18 2
19 2
20 3
Promedio 10.7

En la primera columna de la tabla anterior, se muestra el número de llegadas

registradas en periodos de 15 minutos, estas llegadas oscilan entre 1 y 20. En
promedio, se registran 10.7 llegadas cada 15 minutos (este promedio se calculó
utilizando el criterio de datos agrupados).

Con el propósito de no trabajar con frecuencias menores a cinco, se agruparán

categorías y la tabla quedará de la siguiente forma:

Llegadas Casos
1 6
2a7 9
8a9 10
10 y más 35

La agrupación utilizada es un tanto subjetiva (normalmente, queda al criterio del

investigador).

Se busca probar que la muestra proviene de una población con distribución Poisson
con parámetro λ = 10.7, por lo que el siguiente paso es calcular el valor esperado de
cada categoría.

219 de 357
Tercer semestre
Llegadas Casos Probabilidad Esperado
1a7 15 0.1624 10
8a9 10 0.2096 13
10 y más 35 0.6245 37

En la tabla anterior, se agruparon la primera y segunda categorías debido a que la

frecuencia esperada de una llegada resultó cero. Para calcular la frecuencia
esperada, primero se utiliza la distribución teórica Poisson con λ = 10.7. Después, la
probabilidad obtenida en cada categoría se multiplica por el tamaño de la muestra
(60). Una vez que se tienen los datos observados y esperados, se realiza la prueba
con el estadístico de prueba:

𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

•
Sustituyendo los valores, se obtiene:

𝟐𝟐
(𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟑𝟑𝟑𝟑 − 𝟑𝟑𝟑𝟑)𝟐𝟐
𝝌𝝌 = + +
𝟐𝟐
𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟑𝟑𝟑𝟑
𝝌𝝌 = 𝟑𝟑. 𝟓𝟓𝟓𝟓

A partir de la hipótesis nula, el estadístico de prueba tiene una distribución 𝝌𝝌𝟐𝟐 con

k – p – 1 grados de libertad. En este caso k = 3 y p = 1 porque la distribución Poisson

tiene un parámetro, por lo que se comparará el valor del estadístico de prueba con el

punto crítico de una distribución 𝝌𝝌𝟐𝟐 con 3 – 1 – 1 = 1 grados de libertad que corta la
curva en dos zonas: una con área de 0.05 a su derecha y la otra de 0.95.

Con Microsoft Excel (2013), se calcula el punto crítico de esta distribución así:

[Link](0.05, 1) = 3.84

Como el punto crítico es mayor al valor del estadístico de prueba, no se tiene

evidencia estadística para rechazar la hipótesis nula: se apoya la hipótesis de que la
muestra proviene de una población con distribución Poisson.

220 de 357
Tercer semestre
5.4.3. Ajuste a una distribución binomial

Para finalizar el empleo de la 𝝌𝝌𝟐𝟐 para ajustar a una distribución teórica, a continuación
se presenta un ejercicio donde se desea probar que un conjunto de datos proviene
de una distribución Binomial.

El expediente de un trámite se compone de cuatro documentos; si un documento

está mal llenado, el expediente se clasifica como erróneo.

La auditoría realizada a la organización que elabora los expedientes mostró los

siguientes resultados:

Documentos
Expedientes
erróneos
0 130
1 150
2 200
3 120
4 50
Total 650

Antes de establecer alguna métrica, el auditor desea verificar que los expedientes
con errores siguen una distribución binomial con un nivel de confianza del 95%.

La distribución binomial tiene dos parámetros: la probabilidad de éxito (p) y el número

de ensayos (k). Si se define la variable teórica como el número de documentos con
error de los cuatro que forman el trámite, k = 4 y p es la probabilidad de que un
documento tenga error. Como k ya se conoce, el siguiente paso es estimar p
minúscula. Para hacerlo, se calcula el promedio bajo un criterio de datos agrupados y
se divide entre k. Realizando estas operaciones, la estimación de p = 0.42692.

221 de 357
Tercer semestre
Estimados los parámetros de la distribución teórica, se procede a calcular los valores
esperados. Primero, se calculan las probabilidades de cada categoría y después la
probabilidad calculada se multiplica por el total de expedientes.

En la siguiente tabla, se muestran las frecuencia observadas y estimadas:

Documentos
Expedientes Probabilidad Esperados
erróneos
0 130 0.108 70
1 150 0.321 209
2 200 0.359 233
3 120 0.178 116
4 50 0.033 22
Total 650 1 650

Por último, se realiza la prueba con el estadístico de prueba:

𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

•
Sustituyendo los valores, se obtiene:

(𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟕𝟕𝟕𝟕)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟐𝟐𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟐𝟐𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟓𝟓𝟓𝟓 − 𝟐𝟐𝟐𝟐)𝟐𝟐
𝝌𝝌𝟐𝟐 = + + + +
𝟕𝟕𝟕𝟕 𝟐𝟐𝟐𝟐𝟐𝟐 𝟐𝟐
𝟐𝟐𝟐𝟐𝟐𝟐 𝟏𝟏𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐
𝝌𝝌 = 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟏𝟏

A partir de la hipótesis nula, el estadístico de prueba tiene una distribución 𝝌𝝌𝟐𝟐

con k – p – 1 grados de libertad. En este caso, k = 5 y p = 2 porque la distribución

222 de 357
Tercer semestre
binomial tiene dos parámetros; entonces, se comparará el valor del estadístico de

prueba con el punto crítico de una distribución 𝝌𝝌𝟐𝟐 con 5 – 2 – 1 = 2 grados de

libertad que corta la curva en dos zonas: una con área de 0.05 a su derecha, y la otra
de 0.95.

Con Microsoft Excel (2013), se calcula el punto crítico de esta distribución así:

[Link](0.05, 2) = 5.99

Como el punto crítico es menor al valor del estadístico de prueba, no se tiene

evidencia estadística para apoyar la hipótesis nula, es decir, se rechaza la hipótesis
de que la muestra proviene de una población con distribución binomial.

223 de 357
Tercer semestre
5.5. Pruebas sobre la independencia
entre dos variables
En las secciones 5.3 y 5.4, se mostró el uso de la distribución 𝝌𝝌𝟐𝟐 para realizar
pruebas acerca de la distribución de una población. Otra aplicación de la distribución
es para determinar independencia entre dos variables cualitativas. Por ejemplo,
podría ser de interés para el gerente de marca de una bebida gaseosa determinar si
existe asociación entre el apego emocional a la marca respecto al consumo del
producto; o al gerente de recursos humanos de una organización le sería de utilidad
identificar la asociación entre el nivel de puntualidad de los empleados respecto a su
zona de residencia. A continuación, se expone el empleo de la distribución 𝝌𝝌𝟐𝟐 para
determinar asociación entre variables.

Antes de entrar en materia, conviene repasar algunos conceptos revisados en el

curso de Estadística Descriptiva referentes a probabilidad.

Independencia de eventos

Con frecuencia, es necesario determinar la probabilidad de dos eventos

independientes. Los eventos A y B son independientes si P(A y B) = P(A)⋅P(B), es
decir, si dos eventos son independientes, entonces, la probabilidad de que ocurran al
mismo tiempo es el producto de sus probabilidades.

Como una extensión, si las variables X1 y X2 son independientes, su función conjunta

𝒇𝒇(𝒙𝒙𝟏𝟏 , 𝒙𝒙𝟐𝟐 ) = 𝒇𝒇(𝒙𝒙𝟏𝟏 )⋅𝒇𝒇(𝒙𝒙𝟐𝟐 )

224 de 357
Tercer semestre
Para ilustrar lo anterior, se expone el siguiente ejemplo. Supóngase que la variable
X1 está asociada al resultado de un curso de estadística (aprobado, reprobado),
donde la probabilidad de aprobar es 0.3 y la variable X2 el sexo del alumno (mujer,
hombre), siendo la probabilidad que una mujer tome el curso de 0.2.

En la tabla 1, se ilustra la distribución de ambas variables.

Tabla 1. Distribución de las variables X1 y X2

Género Aprueba Reprueba 𝒇𝒇(𝒙𝒙𝟐𝟐 )

Mujer 0.2

Hombre 0.8

𝒇𝒇(𝒙𝒙𝟏𝟏 ) 0.3 0.7 1.0

En la tabla anterior, se presentan las variables de interés: por fila se muestra los
valores de la variable X2 (género del alumno); y en las columnas, los valores
asociados a X1 (resultado del curso). En los márgenes de la tabla se encuentran las
distribuciones de probabilidad de las variables X1 y X2, denominadas distribuciones
marginales.

Si X1 y X2 fueran independientes, su distribución conjunta f(x1,x2) serían los valores

de las celdas de la tabla, resultado de multiplicar las distribuciones marginales.

En la tabla 2, aparece el cálculo de la distribución conjunta.

Tabla 2. Cálculo de la distribución conjunta de X1 y X2

Género Aprueba Reprueba 𝒇𝒇(𝒙𝒙𝟐𝟐 )
Mujer 0.2⋅0.3 = 0.06 0.2⋅0.7 = 0.14 0.2
Hombre 0.3⋅0.8 = 0.24 0.8⋅0.7 = 0.56 0.8
𝒇𝒇(𝒙𝒙𝟏𝟏 ) 0.3 0.7 1.0

225 de 357
Tercer semestre
Los valores de cada celda de la tabla son el resultado de multiplicar el valor de la
distribución marginal en la fila por el de la columna.

Con lo anterior, si el grupo se compone de 60

alumnos, ¿cuántos se esperaría observar en
cada categoría? Para responder esta
pregunta, se multiplica los 60 por la
probabilidad conjunta correspondiente, como
se muestra a continuación.

Tabla 3. Distribución esperada de 60 alumnos

conforme a la distribución conjunta de X1 y X2
Género Aprueba Reprueba Total
Mujer 60⋅0.06 = 4 60⋅0.14 = 8 12
Hombre 60⋅0.24 = 14 60⋅0.56 = 34 48
Total 18 42 60

Por último, se muestra el uso de la distribución 𝝌𝝌𝟐𝟐 para determinar independencia

entre dos valores.

Tablas cruzadas

Una tabla cruzada se utiliza para clasificar observaciones de una muestra de acuerdo
con dos o más características (variables cualitativas). Si las variables involucradas en
la tabla son independientes, la distribución conjunta tiene una distribución 𝝌𝝌𝟐𝟐 con
(r – 1)⋅(c – 1) grados de libertad, donde r es el número de renglones de la tabla y c
sus columnas.

De nuevo, el estadístico de prueba es:

226 de 357
Tercer semestre
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

A continuación, se muestra un ejemplo.

La opinión de los alumnos asignados a la licenciatura de la UNAM sobre su nivel de

preparación precedente se muestra a continuación por tipo de ingreso.

Opinión de los alumnos asignados a licenciaturas de la UNAM sobre su

preparación precedente por tipo de ingreso

Tipo de ingreso Excelente Buena Regular Deficiente Total

Pase 6,160 15,184 1,276 80 22,700

reglamentado

Concurso de 4,012 9,007 1,298 139 14,456

selección

Total 10,172 24,191 2,574 219 37,156

Fuente: Perfiles de Aspirantes y Asignados a Bachillerato, Técnico y Licenciatura de la UNAM 2013-2014. Dirección General de
Planeación. UNAM.

¿Con un nivel de confianza de 95% se apoyaría la hipótesis de que la opinión del

alumno respecto a su preparación previa a la licenciatura es independiente del tipo
de ingreso?

227 de 357
Tercer semestre
Prueba de hipótesis:

𝑯𝑯𝟎𝟎 : 𝑳𝑳𝑳𝑳 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒍𝒍𝒍𝒍 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒆𝒆𝒆𝒆 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊 𝒅𝒅𝒅𝒅𝒅𝒅 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒅𝒅𝒅𝒅 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊

𝑯𝑯𝒂𝒂 : 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 𝒍𝒍𝒍𝒍 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒍𝒍𝒍𝒍 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒚𝒚 𝒆𝒆𝒆𝒆 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒅𝒅𝒅𝒅 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊

Para responder la pregunta, primero se calculan los valores esperados: se calculan

las distribuciones marginales dividiendo los totales por fila y columna entre el total
𝟏𝟏𝟏𝟏,𝟏𝟏𝟏𝟏𝟏𝟏
general. Por ejemplo, la proporción de alumnos que respondió excelente es 𝟑𝟑𝟑𝟑,𝟏𝟏𝟏𝟏𝟏𝟏
=
𝟐𝟐𝟐𝟐,𝟕𝟕𝟕𝟕𝟕𝟕
𝟎𝟎. 𝟐𝟐𝟐𝟐; y la proporción de alumnos que ingresó por pase reglamentado, 𝟑𝟑𝟑𝟑,𝟏𝟏𝟏𝟏𝟏𝟏
= 𝟎𝟎. 𝟔𝟔𝟔𝟔.

El resto de las proporciones se muestra a continuación.

Tipo de ingreso Excelente Buena Regular Deficiente Total

Pase 0.61
reglamentado

Concurso de 0.39
selección

Total 0.27 0.65 0.07 0.01 1.00

El siguiente paso consiste en calcular el valor esperado de cada celda de la tabla, al

que se llega multiplicando el total general (37,156) por el producto de la probabilidad
de la fila y de la columna. Por ejemplo, el valor esperado de alumnos de pase
reglamentado que respondieron Excelente es el siguiente:

𝟑𝟑𝟑𝟑, 𝟏𝟏𝟏𝟏𝟏𝟏 ∙ (𝟎𝟎. 𝟔𝟔𝟔𝟔 ∙ 𝟎𝟎. 𝟐𝟐𝟐𝟐) = 𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐

De esta manera, los valores esperados se muestran a continuación.

228 de 357
Tercer semestre
Tipo de ingreso Excelente Buena Regular Deficiente Total

Pase 6,214 14,779 1,573 134 22,700

reglamentado

Concurso de 3,958 9,412 1,001 85 14,456

selección

Total 10,172 24,191 2,574 219 37,156

Obtenidos los valores esperados, sigue calcular el estadístico de prueba:

𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

(𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕)𝟐𝟐 (𝟏𝟏, 𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐 (𝟖𝟖𝟖𝟖 − 𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐
𝝌𝝌𝟐𝟐 = + + +
𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐 𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕 𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓 𝟏𝟏𝟏𝟏𝟏𝟏
(𝟒𝟒, 𝟎𝟎𝟎𝟎𝟎𝟎 − 𝟑𝟑, 𝟗𝟗𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟗𝟗, 𝟎𝟎𝟎𝟎𝟎𝟎 − 𝟗𝟗, 𝟒𝟒𝟒𝟒𝟒𝟒)𝟐𝟐 (𝟏𝟏, 𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟖𝟖𝟖𝟖)𝟐𝟐
+ + + +
𝟑𝟑, 𝟗𝟗𝟗𝟗𝟗𝟗 𝟗𝟗, 𝟒𝟒𝟒𝟒𝟒𝟒 𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎 𝟖𝟖𝟖𝟖
𝝌𝝌𝟐𝟐 = 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎

Se rechazará la hipótesis nula si el estadístico de prueba es mayor al punto crítico.

Si se asume que la hipótesis nula es cierta, el estadístico de prueba tiene una

distribución 𝝌𝝌𝟐𝟐 con (r – 1) (c – 1), donde r = 2 renglones y c = 4 columnas, por tanto,
tiene (2 – 1)⋅(4 – 1) = 3 grados de libertad.
Con Excel, se obtiene como punto crítico:

Como el valor de la prueba es notablemente mayor al punto crítico, se rechaza la

hipótesis nula: se apoya que la opinión del estudiante sobre su preparación previa se
encuentra asociada a su procedencia (tipo de ingreso).

229 de 357
Tercer semestre
5.6. Pruebas de homogeneidad
En la sección precedente, se utilizó la distribución 𝝌𝝌𝟐𝟐 para determinar si dos variables
son independientes; ahora, se empleará para comprobar que dos o más muestras
son homogéneas.

Que dos o más muestras sean homogéneas significa que provienen de la misma
población, por lo que es de esperarse que presenten un comportamiento similar.
Supóngase que se desea realizar un estudio para determinar las causas por las que
los alumnos de la carrera de Administración no tienen un buen desempeño en la
materia de Estadística II. Se escogen al azar cuatro grupos (dos del turno matutino y
dos del vespertino) y se obtiene la distribución de calificaciones en la materia, como
se muestra a continuación.

Tabla. Distribución de las calificaciones del curso de

Estadística II en cuatro grupos de Administración

Calificación del curso

Grupo 5 6.0 a 7.5 7.6 a 8.5 8.6 a 10 Total
Matutino1 7 50 9 6 72
Matutino2 9 55 8 7 79
Vespertino1 6 40 6 5 57
Vespertino2 7 35 7 6 55
Total 29 180 30 24 263

La tabla anterior presenta la distribución de calificaciones de Estadística II de 263

alumnos provenientes de los cuatro grupos seleccionados: 180 (68%) tiene
calificaciones entre 6 y 7.5; y 24 (9%), notas mayores a 8.5.

230 de 357
Tercer semestre
Antes de continuar, los académicos responsables de la investigación quieren verificar
que las muestras (los grupos) sean homogéneas con un nivel de confianza de 95%
para generalizar los resultados que se obtengan, por lo que realizan una prueba de
homogeneidad de muestras.

Hipótesis que contrastan:

H0: las muestras son homogéneas

H1: las muestras no son homogéneas

Así como se procedió para probar si dos variables son independientes, en este caso
se utilizará el estadístico de prueba:

𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

Su distribución bajo la hipótesis nula es 𝝌𝝌𝟐𝟐 con (r – 1)⋅(c – 1) grados de libertad. Para
este ejemplo, la tabla cuenta con cuatro renglones (r) y cuatro columnas (c), por lo
que la distribución tendrá (4 – 1)⋅(4 – 1) = 9 grados de libertad.

El cálculo de los valores esperados se realiza de la misma manera que la sección

anterior.
Tabla. Valores esperados conforme a la hipótesis nula
Calificación del curso
Grupo 5 6.0 a 7.5 7.6 a 8.5 8.6 a 10 Total
Matutino1 7 50 8 7 72
Matutino2 8 55 9 7 79
Vespertino1 6 39 7 5 57
Vespertino2 5 36 6 5 52
Total 26 180 30 24 260

231 de 357
Tercer semestre
Estadístico de prueba:

𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

(𝟕𝟕 − 𝟕𝟕)𝟐𝟐 (𝟓𝟓𝟓𝟓 − 𝟓𝟓𝟓𝟓)𝟐𝟐 (𝟗𝟗 − 𝟗𝟗)𝟐𝟐 (𝟔𝟔 − 𝟕𝟕)𝟐𝟐 (𝟔𝟔 − 𝟓𝟓)𝟐𝟐
𝝌𝝌𝟐𝟐 = + + + + ⋯+
𝟕𝟕 𝟓𝟓𝟓𝟓 𝟗𝟗 𝟕𝟕 𝟓𝟓
𝝌𝝌𝟐𝟐 = 𝟏𝟏. 𝟏𝟏

Se rechazará la hipótesis nula si el estadístico de prueba es mayor al punto crítico.

El punto crítico de una distribución 𝝌𝝌𝟐𝟐 con 9 grados de libertad que separa la curva
en dos regiones, una de 0.95 (izquierda del punto crítico) y otra de 0.05 (derecha del
punto crítico), es el siguiente.

[Link](0.05, 9)=16.9

Como el valor de la prueba es menor al punto crítico, se acepta la hipótesis nula y se

apoya que las muestras son homogéneas.

Como última observación, al utilizar el estadístico de prueba

𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏

se debe cuidar que los valores observados sean al menos de cinco. De no ser así, se
sugiere juntar categorías para que se cumpla esta condición; de lo contrario, la
prueba pierde precisión.

232 de 357
Tercer semestre
RESUMEN
En esta unidad, se expuso la distribución χ2, su uso para contrastar hipótesis
relacionadas con la varianza poblacional, diferencia de proporciones, bondad de
ajuste, independencia y homogeneidad.

(𝒏𝒏−𝟏𝟏)𝒔𝒔𝟐𝟐
Se utilizaron dos estadísticos de prueba: 𝝌𝝌𝟐𝟐 = para contrastar hipótesis
𝝈𝝈𝟐𝟐
(𝒐𝒐𝒊𝒊 −𝒆𝒆𝒊𝒊 )𝟐𝟐
relacionadas con la varianza poblacional, y 𝝌𝝌𝟐𝟐 = ∑𝒌𝒌𝒊𝒊=𝟏𝟏 para el resto de las
𝒆𝒆𝒊𝒊

pruebas expuestas. Para que este último estadístico de prueba arroje resultados
confiables, se debe observar que tanto la frecuencia observada como la esperada de
las categorías sean al menos de cinco.

Como valor agregado, se utilizó Excel para el cálculo de los puntos críticos, que se
ha venido practicando en unidades anteriores.

233 de 357
Tercer semestre
BIBLIOGRAFÍA

SUGERIDA

Autor Capítulo Páginas

Anderson, S. (2016) 11 449-471
12 472-505
Levin, R. (2010) 11 447-468
Lind, D. (2015) 17 648-679

234 de 357
Tercer semestre
UNIDAD 6

Análisis de regresión
lineal simple

235 de 357
Tercer semestre
OBJETIVO PARTICULAR
El alumno conocerá el método de regresión lineal simple, así como su aplicación e
interpretación.

TEMARIO DETALLADO
(10 horas)

6. Análisis de regresión lineal simple

6.1. Ecuación y recta de regresión
6.2. El método de mínimos cuadrados
6.3. Determinación de la ecuación de regresión
6.4. El modelo de regresión y sus supuestos
6.5. Inferencias estadísticas sobre la pendiente de la recta de regresión
6.6. Análisis de correlación

236 de 357
Tercer semestre
INTRODUCCIÓN
Existen situaciones donde se requiere determinar si el comportamiento de cierto
suceso se explica con el conocimiento de otra información. Por ejemplo, puede ser
de interés conocer el impacto del número de horas de preparación para un examen
de admisión a una institución de educación superior en el porcentaje de aciertos; o la
afectación de los ingresos de una organización en función del presupuesto destinado
a publicidad; o la duración de la batería de un dispositivo electrónico de acuerdo con
el tiempo destinado a descargar tutoriales.

Para los problemas descritos en el párrafo anterior,

se emplea el análisis de regresión lineal simple,
técnica que trata de explicar una variable de interés
o respuesta (y) en función de otra (x), mediante un
modelo lineal.

En esta unidad, se mostrarán las características del modelo de regresión y el método

para estimar sus parámetros. Una vez obtenidos los parámetros, se expone cómo
determinar la ecuación del modelo, los supuestos que debe cumplir y la manera de
realizar inferencias sobre la pendiente de la recta de regresión. La unidad concluye
con el análisis de correlación lineal entre dos variables continuas.

237 de 357
Tercer semestre
6.1. Ecuación y recta de regresión
En este apartado, se tratarán los conceptos del modelo de regresión lineal simple.
Para entender mejor este modelo, se repasará brevemente la ecuación de la recta.

Ecuación de la recta

En el plano cartesiano, la forma de describir una recta es mediante la ecuación

𝒚𝒚 = 𝒎𝒎𝒎𝒎 + 𝒃𝒃

•
Donde:

𝒎𝒎 = pendiente de la recta
𝒃𝒃 = ordenada al origen o el punto donde intersecta la recta al eje Y, cuando x = 0

En la figura 1, se muestra una representación gráfica de la línea recta.

Figura 1. Representación gráfica de la línea recta

y
y = mx+b

b
x
0

Fuente: elaboración propia.

238 de 357
Tercer semestre
La figura anterior ilustra la función de una línea recta con parámetros m y b. La
pendiente m indica las unidades que se mueve y por cada unidad de cambio en x, y
b es la intersección de la recta con el eje de las ordenadas.

Si m > 0, la recta tiene un ángulo de inclinación positivo; es

decir, cada que aumenta x, aumenta y.

Si m < 0, la recta tiene un ángulo de inclinación negativo;

es decir, cada que aumenta x, disminuye y.

Si m = 0 la recta es horizontal; es decir, cada que

aumenta x, se mantiene constante y en b.

Para determinar la pendiente, es suficiente conocer dos puntos por donde atraviesa
la recta (x1, y1),(x2, y2) y aplicar la fórmula:

𝒚𝒚𝟐𝟐 − 𝒚𝒚𝟏𝟏
𝒎𝒎 =
𝒙𝒙𝟐𝟐 − 𝒙𝒙𝟏𝟏

Teniendo presente lo anterior, se presenta a continuación el modelo de regresión

lineal simple.

Modelo de regresión lineal

El modelo de regresión lineal explica la relación entre una variable dependiente, a la

que se denotará y, con otra(s) explicativa(s) a través de una ecuación de primer
orden. Tanto las variables dependientes como las explicativas son observables.

239 de 357
Tercer semestre
Supóngase que una organización con 20
empleados realizó una evaluación del desempeño
de cada empleado, y de acuerdo con el resultado
se determinó un ajuste en el sueldo. Un auditor
quiere explicar el incremento salarial conforme al
desempeño del empleado.

En este ejemplo, el incremento salarial es la variable dependiente (y), ya que es

resultado del desempeño de cada empleado (x). El incremento salarial observado del
i-ésimo empleado (i = 1,2,..,20) se puede plantear de la siguiente manera:

Incremeto observado = Incremento esperado + variación (i= 1, 2, ..., 20)

Es decir, el incremento salarial observado del i-ésimo empleado tiene una parte
explicable por la variable explicativa (nivel de desempeño observado) y otra no
explicable, como puede ser una distracción del evaluador o su estado de salud al
momento de la reunión.

Si denotamos como y al incremento salarial, como x al desempeño y como ε a la

variación entre el incremento observado y estimado, entonces el incremento salarial
del i-ésimo empleado (i = 1,2,..,20) se puede expresar así:

𝒚𝒚𝒊𝒊 = 𝝁𝝁 𝒙𝒙𝒊𝒊 + 𝝐𝝐𝒊𝒊

Donde μ(xi) representa el incremento esperado del i-ésimo empleado con su

desempeño observado.

240 de 357
Tercer semestre
También μ(xi) es un estimador de yi cuya estimación depende del valor de xi. En el
modelo de regresión lineal, la regla para estimar y consiste en relacionarla con x a
través de una ecuación lineal.

Regresando al ejemplo, μ(xi) puede expresarse así:

𝝁𝝁 𝒙𝒙𝒊𝒊 = 𝒚𝒚�𝒊𝒊 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝒙𝒙𝒊𝒊

•
Donde:

𝝁𝝁 𝒙𝒙𝒊𝒊 = estimador del incremento salarial del i-ésimo empleado (i=1,2,..,20) en

función del desempeño observado
𝜷𝜷𝟎𝟎 = ordenada al origen de la recta de estimación
𝜷𝜷𝟏𝟏 = pendiente de la recta de estimación

Entonces, el auditor puede partir del siguiente modelo para determinar el criterio de
incremento salarial de los empleados de la organización:

𝒚𝒚𝒊𝒊 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝒙𝒙𝒊𝒊 + 𝝐𝝐𝒊𝒊

Es el modelo de regresión lineal simple.

241 de 357
Tercer semestre
Ahora, cuando solamente se emplea una variable explicativa, al modelo de regresión
lineal se le denomina simple y se modela con la siguiente ecuación:

𝒀𝒀𝒊𝒊 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝑿𝑿𝒊𝒊 + 𝜺𝜺𝒊𝒊

•
Donde:
𝒀𝒀𝒊𝒊 = variable dependiente o respuesta de la i-ésima observación
𝜷𝜷𝟎𝟎 = intersección con el eje Y
𝜷𝜷𝟏𝟏 = pendiente de la recta
𝑿𝑿𝒊𝒊 = variable independiente o explicativa de la i-ésima observación
𝜺𝜺𝒊𝒊 = error no observable de la i-ésima observación
i = 1,2,.., n.

Cuando hay más de una variable explicativa, el modelo de regresión lineal es

múltiple y se modela con la siguiente ecuación:

𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝑿𝑿𝟏𝟏 + 𝜷𝜷𝟐𝟐 𝑿𝑿𝟐𝟐 + ⋯ + 𝜷𝜷𝒑𝒑 𝑿𝑿𝒑𝒑 + 𝜺𝜺

•
Donde:

𝒀𝒀 = variable dependiente o respuesta con n observaciones

𝜷𝜷𝟎𝟎 : intersección con el eje Y
𝜷𝜷𝟏𝟏 , 𝜷𝜷𝟐𝟐 , … , 𝜷𝜷𝒑𝒑 = razón de cambio de Y respecto a cada variable explicativa
manteniendo el resto sin cambio.
𝑿𝑿𝟏𝟏 , 𝑿𝑿𝟐𝟐 𝒚𝒚 𝑿𝑿𝒑𝒑 = variables independientes o explicativas, cada una de n observaciones
𝜺𝜺: error entre Y observada y estimada

Este material de estudio se enfocará al modelo de regresión lineal simple, en el cual

se estima una recta que cruce a lo largo de la información con la intención de
explicar el comportamiento de la variable de interés, como lo ilustra la figura 2.

242 de 357
Tercer semestre
Figura 2. Ilustración del modelo de regresión lineal simple
Y

Yi = β0 – ß1 xi

Diferencia entre observado y estimado

Fuente: elaboración propia.

La figura anterior ilustra un gráfico de dispersión donde cada punto azul representa el
valor de la variable respuesta (Y) observado con el valor de la variable explicativa
(X), la línea roja es la recta estimada que se ajusta al conjunto de datos, cuya
ecuación es 𝒀𝒀𝒊𝒊 = 𝜷𝜷𝟎𝟎 − 𝜷𝜷𝟏𝟏 𝑿𝑿𝒊𝒊 , y la diferencia entre el valor observado y el estimado
con la ecuación de regresión lineal es el error.

En el ejemplo de los incrementos salariales de la organización de 20 empleados, en

el eje X se representaría el desempeño del empleado; y en el eje Y, el incremento
salarial. Los puntos azules serían el incremento salarial observado de cada
empleado asociado a su desempeño; y la línea roja, el modelo de regresión lineal
simple. En el siguiente apartado, se explica cómo calcular la recta de regresión lineal
simple.

243 de 357
Tercer semestre
6.2. El método de
mínimos cuadrados
En la parte final de la sección anterior, en la figura 2 se ilustró cómo la recta de
regresión lineal simple atraviesa el conjunto de datos; sin embargo, el número de
rectas que se pueden trazar es infinito, por lo que surge la pregunta sobre cuál es la
recta conveniente. La respuesta no es difícil, dado que lo deseable es que la
diferencia entre el valor estimado y observado de una observación sea la menor
posible.

Partiendo del modelo para una observación cualquiera:

• 𝒚𝒚𝒊𝒊 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝒙𝒙𝒊𝒊 + 𝜺𝜺𝒊𝒊

Entonces, el error es la diferencia entre los valores observados y estimados:

• 𝒚𝒚𝒊𝒊 − 𝜷𝜷𝟎𝟎 − 𝜷𝜷𝟏𝟏 𝒙𝒙𝒊𝒊 = 𝜺𝜺𝒊𝒊

Error de todas las observaciones (n):

• ∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒚𝒚𝒊𝒊 − 𝜷𝜷𝟎𝟎 − 𝜷𝜷𝟏𝟏 𝒙𝒙𝒊𝒊 = ∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝜺𝜺𝒊𝒊

Como se explicó en la sección anterior, la recta 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝒙𝒙𝒊𝒊 es un valor esperado de
𝒚𝒚𝒊𝒊 , por lo que la suma de las diferencias entre los valores estimados y observados se
espera sea cero. Para superar este inconveniente, se procede a trabajar con los
errores al cuadrado, los cuales quedan expresados así:

244 de 357
Tercer semestre
𝒏𝒏 𝒏𝒏

�(𝒚𝒚𝒊𝒊 −𝜷𝜷𝟎𝟎 − 𝜷𝜷𝟏𝟏 𝒙𝒙𝒊𝒊 )𝟐𝟐 = � 𝜺𝜺𝒊𝒊 𝟐𝟐

𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏

La recta que se busca es de parámetros 𝜷𝜷𝟎𝟎 y 𝜷𝜷𝟏𝟏 y minimiza la expresión del lado
derecho. A esta metodología para obtener la recta que garantiza el menor error de
estimación se le conoce como mínimos cuadrados.

Los valores de los parámetros 𝜷𝜷𝟎𝟎 y 𝜷𝜷𝟏𝟏 , por el método de mínimos cuadrados, son los
siguientes:

� − 𝜷𝜷𝟏𝟏 𝒙𝒙
𝜷𝜷𝟎𝟎 = 𝒚𝒚 �

𝒏𝒏 ∑ 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 − ∑ 𝒙𝒙𝒊𝒊 ∑ 𝒚𝒚𝒊𝒊

𝜷𝜷𝟏𝟏=
𝒏𝒏 ∑ 𝒙𝒙𝟐𝟐𝒊𝒊 − (∑ 𝒙𝒙𝒊𝒊 )𝟐𝟐

• Donde:

𝜷𝜷𝟎𝟎 : intersección con el eje Y

𝜷𝜷𝟏𝟏 : pendiente de la recta de regresión lineal simple
�: promedio de la variable dependiente
𝒚𝒚
�: promedio de la variable independiente
𝒙𝒙
n: número de observaciones
𝒙𝒙𝒊𝒊 : i-ésima observación de la variable independiente (i = 1,..,n)
𝒚𝒚𝒊𝒊 : i-ésima observación de la variable dependiente (i = 1,..,n)

A continuación, se muestra a manera de ejemplo cómo estimar una recta de

regresión lineal simple por mínimos cuadrados.

Una PYME que imparte clases de manejo a personas de entre 30 y 65 años, para
negociar las condiciones de su póliza de accidentes con la compañía de seguros que
les ofrece el servicio, quiere conocer la relación entre el número de accidentes

245 de 357
Tercer semestre
automovilísticos en la localidad donde se encuentra el negocio. La información se
presenta a continuación.

Accidentes automovilísticos por edad del conductor

ID Edad Accidentes ID Edad Accidentes
1 30 1,004 19 48 504
2 31 946 20 49 432
3 32 914 21 50 456
4 33 742 22 51 346
5 34 714 23 52 382
6 35 842 24 53 334
7 36 744 25 54 298
8 37 792 26 55 252
9 38 844 27 56 240
10 39 722 28 57 244
11 40 982 29 58 288
12 41 644 30 59 218
13 42 594 31 60 208
14 43 604 32 61 146
15 44 480 33 62 130
16 45 570 34 63 130
17 46 440 35 64 122
18 47 410 36 65 104

Para obtener la recta de regresión por mínimos cuadrados, se dan los siguientes
pasos:

1. Determinar las variables dependientes (Y) e independiente(X).

En este problema, Y es el número de accidentes y X la edad del conductor debido a

que el número de accidentes será explicado por la edad del conductor.

246 de 357
Tercer semestre
2. Graficar las variables X y Y.

Gráfica 1. Número de accidentes por edad del conductor

1200

1000
Número de accidentes

800

600

400

200

0
25 35 45 55 65 75
Edad

Fuente: elaboración propia con empleo de Microsoft Excel (2013).

En la gráfica 1, se ilustra el número de accidentes (Y) respecto a la edad del

conductor (X). Se aprecia como patrón que, conforme el conductor es mayor, el
riesgo de tener un accidente disminuye.

3. Calcular los parámetros de la recta de regresión que atraviesa el conjunto de

datos por mínimos cuadrados.

A continuación, se calcula la pendiente de la recta:

𝒏𝒏 ∑ 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 − ∑ 𝒙𝒙𝒊𝒊 ∑ 𝒚𝒚𝒊𝒊

𝜷𝜷𝟏𝟏=
𝒏𝒏 ∑ 𝒙𝒙𝟐𝟐𝒊𝒊 − (∑ 𝒙𝒙𝒊𝒊 )𝟐𝟐

Obsérvese que en la fórmula se requieren cinco sumas, cuyo cálculo se muestra en

la siguiente tabla.

247 de 357
Tercer semestre
Tabla 1. Memoria de cálculo de los elementos de la fórmula para calcular
𝜷𝜷𝟏𝟏 mediante mínimos cuadrados

1 2 1-2 (1)2
Xi Yi XiYi Xi2 n
Número de
Edad accidentes
30 1004 30120 900 36
31 946 29326 961
32 914 29248 1024
33 742 24486 1089
34 714 24276 1156
35 842 29470 1225
36 744 26784 1296
37 792 29304 1369
38 844 32072 1444
39 722 28158 1521
40 982 39280 1600
41 644 26404 1681
42 594 24948 1764
43 604 25972 1849
44 480 21120 1936
45 570 25650 2025
46 440 20240 2116
47 410 19270 2209
48 504 24192 2304
49 432 21168 2401
50 456 22800 2500
51 346 17646 2601
52 382 19864 2704
53 334 17702 2809
54 298 16092 2916
55 252 13860 3025
56 240 13440 3136
57 244 13908 3249
58 288 16704 3364
59 218 12862 3481
60 208 12480 3600
61 146 8906 3721
62 130 8060 3844
63 130 8190 3969
64 122 7808 4096
65 104 6760 4225
∑ 𝑿𝑿i 1710 ∑ 𝒀𝒀i 17822 ∑ 𝑿𝑿i 𝒀𝒀i 748570 ∑ 𝑿𝑿i2 85110
(∑ 𝑿𝑿i)2 2924100
∑ 𝑿𝑿i ∑ 𝒀𝒀i 30475620

Fuente: elaboración propia con empleo de Microsoft Excel (2013).

248 de 357
Tercer semestre
La tabla anterior presenta el cálculo de los elementos de la fórmula de la pendiente
de la recta de regresión de mínimos cuadrados. La primera columna contiene la edad
del conductor (X); la segunda, el número de accidentes reportados para cada edad
(Y). La tercera columna se obtiene multiplicando las dos primeras, por ejemplo, el
primer elemento de esta columna (30,120) es resultado de multiplicar el primer valor
de la primera (30) por el primer valor de la segunda (1,004). La cuarta columna es
resultado de multiplicar la primera por sí misma. Regresando a analizar el primer
elemento (900), este se obtuvo de multiplicar por sí mismo el primer elemento de la
primera columna (30). En la parte final, se encuentran las sumas y multiplicaciones
que se requiere sustituir en la fórmula.

Sustituyendo, la pendiente es la siguiente:

(𝟑𝟑𝟑𝟑 ∙ 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕) − 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
𝜷𝜷𝟏𝟏=
(𝟑𝟑𝟑𝟑 ∙ 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖) − 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
𝜷𝜷𝟏𝟏=
𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑 − 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
−𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
𝜷𝜷𝟏𝟏=
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝜷𝜷𝟏𝟏= − 𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐𝟐𝟐

Y la ordenada al origen:
� − 𝜷𝜷𝟏𝟏 𝒙𝒙
𝜷𝜷𝟎𝟎 = 𝒚𝒚 �
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
�=
𝒀𝒀
𝟑𝟑𝟑𝟑
� = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟎𝟎𝟎𝟎𝟎𝟎
𝒀𝒀
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
�=
𝑿𝑿
𝟑𝟑𝟑𝟑
� = 𝟒𝟒𝟒𝟒. 𝟓𝟓
𝑿𝑿
� − 𝜷𝜷𝟏𝟏 𝒙𝒙
𝜷𝜷𝟎𝟎 = 𝒚𝒚 �
𝜷𝜷𝟎𝟎 = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟎𝟎𝟎𝟎𝟎𝟎 − (−𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐𝟐𝟐 ∙ 𝟒𝟒𝟒𝟒. 𝟓𝟓)
𝜷𝜷𝟎𝟎 = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟎𝟎𝟎𝟎𝟎𝟎 − 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖
𝜷𝜷𝟎𝟎 = 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟗𝟗𝟗𝟗𝟗𝟗

249 de 357
Tercer semestre
De esta manera, se obtienen los parámetros de la recta de regresión lineal simple
con el método de mínimos cuadrados. En la siguiente sección, se expone cómo
determinar la ecuación de regresión lineal simple.

6.3. Determinación de la
ecuación de regresión
Como se ha mencionado, el modelo de regresión lineal simple estima el valor
observado de la variable dependiente (Y) a partir de la explicativa (X) con la ecuación
de una recta. Una vez determinados los valores de los parámetros mediante mínimos
cuadrados, la estimación de los valores de Y se realiza con la ecuación de regresión
lineal simple:

�
𝒀𝒀𝒊𝒊 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝑿𝑿𝒊𝒊

En el ejemplo anterior, 𝜷𝜷𝟎𝟎 = 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟗𝟗𝟗𝟗𝟗𝟗 (1,693) y 𝜷𝜷𝟏𝟏 = −𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐𝟐𝟐 (-25.2) por lo que la
ecuación de regresión lineal simple es la siguiente:

250 de 357
Tercer semestre
�
𝒀𝒀𝒊𝒊 = 𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔 − 𝟐𝟐𝟐𝟐. 𝟐𝟐𝑿𝑿𝒊𝒊

•
Donde:

�
𝒀𝒀𝒊𝒊 = estimación del número de accidentes para conductores en la i-ésima
observación. (i=1,2,…,36)
𝑿𝑿𝒊𝒊 = edad del conductor en la i-ésima observación. (i=1,2,…,36)

En esta ecuación, 𝜷𝜷𝟎𝟎 indica que, cuando X = 0, se espera observar 1693 accidentes,
lo que en el contexto del problema no tiene sentido, porque la edad de interés es
entre 30 y 65. Por otro lado, la pendiente de la ecuación tiene una dirección negativa,
esto significa que, conforme se avance en edad, se espera observar menos
accidentes. El valor de la pendiente (–25.2) indica que, por cada año que aumenta la
edad del conductor, el número de accidentes disminuye en 25.

6.4. El modelo de regresión

y sus supuestos
Un aspecto fundamental cuando se trabaja con esta técnica es que el modelo de
regresión lineal simple es estimado con los valores de una muestra, por lo que los
valores obtenidos de 𝜷𝜷𝟎𝟎 y 𝜷𝜷𝟏𝟏 son estimaciones de los parámetros de la recta con
toda la población 10. Así, el propósito del modelo no es solamente calcular los
parámetros, sino realizar inferencia sobre los verdaderos valores de esos

10Los estimadores de β0 y β1 son insesgados.

251 de 357
Tercer semestre
parámetros. Por lo anterior, es necesario considerar los siguientes supuestos al
emplear una regresión lineal simple.

1. En el modelo de regresión lineal simple

𝒀𝒀𝒊𝒊 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝑿𝑿𝒊𝒊 + 𝜺𝜺𝒊𝒊 (i = 1,.., n)

tanto la variable dependiente (Y) como la explicativa (X) son observables.

2. El modelo es lineal en los parámetros no en las variables. Esto significa que se

pueden realizar transformaciones sobre las variables originales para que haya una
relación lineal, y la esencia del modelo no se pierde.

3. El error de estimación 𝜺𝜺𝒊𝒊 es una variable aleatoria cuyo valor esperado es cero y
su varianza es 𝝈𝝈𝟐𝟐, la cual se mantiene constante en todas las observaciones y es
desconocida.

4. Los errores 𝜺𝜺𝒊𝒊 son independientes. Esto significa que, dados dos valores
cualesquiera de X, xi, xj (i ≠ j), los errores 𝜺𝜺𝒊𝒊 , 𝜺𝜺𝒋𝒋 son independientes. 11

5. El error 𝜺𝜺𝒊𝒊 es una variable aleatoria con distribución normal. Al ser y una función
lineal del error, también se distribuye normalmente.

Uno de los aspectos que más se descuida al ajustar un modelo de regresión lineal
simple es revisar que se cumplan los supuestos del modelo (esta revisión implica
analizar el comportamiento de los residuos). Como este tema no está incluido en el
plan de estudios, no se abordará; sin embargo, se sugiere profundizarlo en Anderson
(2012), parte de la bibliografía citada al término de la unidad.

11O al menos no correlacionados.

252 de 357
Tercer semestre
6.5. Inferencias estadísticas sobre la
pendiente de la recta de regresión
Como se mencionó en la sección anterior, el propósito del modelo de regresión lineal
simple no se reduce a calcular los parámetros de la recta, sino que implica realizar
inferencia sobre ellos. Cuando se ajusta un modelo de regresión, la primera prueba
efectuada es referente a si un modelo lineal es el adecuado para los datos, y
posteriormente se hacen inferencias sobre la pendiente. En este apartado, se
expondrá como llevar a cabo inferencias sobre la pendiente de la recta de regresión.

Para establecer inferencias con la pendiente del modelo, se contrastan las siguientes
hipótesis:

H0: 𝜷𝜷𝟏𝟏 = 0
H1: 𝜷𝜷𝟏𝟏 ≠ 0

La hipótesis nula significa que el valor de la pendiente del modelo no es importante:

la variable X no tiene efecto sobre Y, es decir, X no es una variable explicativa de Y.

La hipótesis alternativa plantea que el valor de la pendiente sí es importante: X tiene

efecto sobre Y.

Rechazar la hipótesis nula significa que la variable X es una variable explicativa de Y.

Esto implica que el modelo puede aplicarse.

253 de 357
Tercer semestre
El estadístico de prueba empleado para contrastar la hipótesis nula es el siguiente:

𝒏𝒏 𝟐𝟐
� 𝟏𝟏 − 𝜷𝜷𝟏𝟏
𝜷𝜷
𝒕𝒕 = �)
�(𝒙𝒙𝒊𝒊 − 𝒙𝒙
𝒔𝒔
𝒊𝒊=𝟏𝟏

•
Donde:

�𝟏𝟏 = estimador de la pendiente de la recta de regresión

𝜷𝜷
𝜷𝜷𝟏𝟏 = pendiente de la recta de regresión asumiendo cierta la hipótesis nula
s = estimador de la desviación estándar, el cual es

� )𝟐𝟐
∑(𝒀𝒀𝒊𝒊 − 𝒀𝒀
𝑺𝑺 =
𝒏𝒏 − 𝟐𝟐

El estadístico de prueba tiene una distribución t de Student con n – 2 grados de

libertad. En la figura 3, se ilustra una prueba ubicada en zona de rechazo.

Figura 3. Ilustración de una prueba donde se rechaza

la hipótesis nula

Zona de
No Rechazo

Zona Zona
Rechazo Rechazo
Punto Punto
crítico crítico
t
Fuente: elaboración propia.

254 de 357
Tercer semestre
La figura 3 ilustra una prueba donde el estadístico de prueba se ubica en la zona de
rechazo, lo que significa que la pendiente tiene un valor significativo. Al final de la
unidad, se muestra un ejemplo de cómo realizar inferencias de la pendiente con
Microsoft Excel (2013).

En el ejemplo de los accidentes, se mencionó que el modelo ajustado es

�
𝒀𝒀𝒊𝒊 = 𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔 − 𝟐𝟐𝟐𝟐. 𝟐𝟐𝑿𝑿𝒊𝒊

La pregunta es, entonces, si los coeficientes son significativos. Para responder esto,
se realiza la prueba de hipótesis, donde H0 es que los coeficientes son cero (no
tienen un valor significativo). El resultado de la prueba se muestra a continuación.

Coeficientes Error típico Estadístico t Probabilidad

Intercepción 1692.9 58.6 28.9 1.64442E-25
Edad -25.2 1.2 -20.9 5.35232E-21

Fuente: Microsoft Excel (2013). Módulo de análisis de datos.

La tabla anterior muestra los valores de los coeficientes del modelo, su error, su
estadístico de prueba y resaltado. Se ve la significancia de la prueba (p value), y
como esta prueba es menor a 0.05, se rechaza H0: los coeficientes son significativos.

255 de 357
Tercer semestre
6.6. Análisis de correlación
En el análisis de regresión lineal simple, si la variable X es explicativa de Y, entonces
el modelo muestra el efecto de un cambio en X sobre Y. Un análisis complementario
es el de correlación, el cual determina el grado de asociación lineal entre dos
variables.

La correlación entre las variables X y Y se denota como ρxy, y se define como el

grado en que se encuentran asociadas estas variables. El estimador de esta
correlación es conocido como coeficiente de correlación, denotado como r, y su
fórmula es

� )(𝒀𝒀𝒊𝒊 − 𝒀𝒀
∑(𝑿𝑿𝒊𝒊 − 𝑿𝑿 �)
𝒓𝒓 =
� )𝟐𝟐 ∑(𝒀𝒀𝒊𝒊 − 𝒀𝒀
∑(𝑿𝑿𝒊𝒊 − 𝑿𝑿 �)𝟐𝟐

El coeficiente de correlación es un valor independiente de las unidades de las

variables, lo que permite que pueda ser empleado en comparativos; toma valores
entre –1 y 1 (en –1 significa que existe una asociación lineal perfecta negativa, es
decir, el incremento de la variable explicativa resultará una disminución en la variable
respuesta; y en 1, la asociación lineal entre las variables es perfecta y positiva, lo que
implica que un aumento de la variable explicativa hará que aumente el valor de la
variable respuesta). Cuando el coeficiente de correlación es cero, significa que las
variables no están asociadas o que su asociación no es lineal.

256 de 357
Tercer semestre
La figura 4 muestra una categorización de la asociación entre dos variables en
función del valor del coeficiente de correlación.

Figura 4. Nivel de asociación de dos variables de acuerdo con el valor del

coeficiente de correlación

Negativa Positiva

Fuerte Moderada Débil Débil Moderada Fuerte

-1.00 -0.65 -0.50 -0.35 0 0.35 0.50 0.65 1.00

-1.00 0 1.00
Relación No existe Relación
lineal Relación lineal
negativa lineal positiva
perfecta perfecta

Fuente: elaboración propia.

En la figura anterior, se muestra cómo interpretar los niveles de asociación entre dos
variables de acuerdo con el valor del coeficiente de correlación. Un valor mayor a
cero indica que existe una correlación positiva; en caso contrario, la correlación es
negativa. Las variables se considerarán con una asociación débil si su correlación
tiene un valor absoluto entre 0 y 35; moderada, entre 35 y 65; y fuerte, mayor a 65.

Para el ejemplo del número de accidentes por edad del conductor, la correlación
entre las dos variables es de –0.9633, lo que significa que la asociación entre las
variables es casi negativa perfecta.

257 de 357
Tercer semestre
La tabla 2 muestra la memoria de cálculo de los elementos que forman parte de la
fórmula de la correlación de las variables. En la parte superior de la tabla, se numera
la columna (del 1 al 9) y en algunos casos, debajo de este número, se indican las
columnas involucradas en la obtención de sus cifras. Por ejemplo, los valores de la
columna 5 se obtienen de restarle a la edad (columna 1) el promedio de edad
(columna 2). Los valores involucrados en la fórmula del coeficiente de correlación
son los dos que se hallan en la parte inferior derecha, y al sustituirlos se obtiene lo
siguiente:

−𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
𝒓𝒓 =
√𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
−𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
𝒓𝒓 =
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟕𝟕𝟕𝟕𝟏𝟏𝟖𝟖
𝒓𝒓 = −𝟎𝟎. 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗

Es decir, el resultado comentado.

258 de 357
Tercer semestre
Tabla 2. Memoria de cálculo de los elementos de la fórmula para calcular r entre el número de accidentes y la
edad del conductor
1 2 3 4 5 6 7 8 9
(1-2) (1-2)2 (3-4) (3-4)2 5-7
Xi �
𝑿𝑿 Yi �
𝒀𝒀 �)
(Xi-𝑿𝑿 � )2
(Xi-𝑿𝑿 �)
(Yi-𝒀𝒀 � )2
(Yi-𝒀𝒀
Edad Promed Número de Promedio
io de X accidentes de Y
30 47.5 1004 495.06 -17.5 306.25 508.94 259024.45 -8906.52778
31 946 -16.5 272.25 450.94 203350.89 -7440.58333
32 914 -15.5 240.25 418.94 175514.45 -6493.63889
33 742 -14.5 210.25 246.94 60981.56 -3580.69444
34 714 -13.5 182.25 218.94 47936.67 -2955.75
35 842 -12.5 156.25 346.94 120370.45 -4336.80556
36 744 -11.5 132.25 248.94 61973.34 -2862.86111
37 792 -10.5 110.25 296.94 88176.00 -3117.91667
38 844 -9.5 90.25 348.94 121762.23 -3314.97222
39 722 -8.5 72.25 226.94 51503.78 -1929.02778
40 982 -7.5 56.25 486.94 237114.89 -3652.08333
41 644 -6.5 42.25 148.94 22184.45 -968.138889
42 594 -5.5 30.25 98.94 9790.00 -544.194444
43 604 -4.5 20.25 108.94 11868.89 -490.25
44 480 -3.5 12.25 -15.06 226.67 52.6944444
45 570 -2.5 6.25 74.94 5616.67 -187.361111
46 440 -1.5 2.25 -55.06 3031.11 82.5833333
47 410 -0.5 0.25 -85.06 7234.45 42.5277778
48 504 0.5 0.25 8.94 80.00 4.47222222
49 432 1.5 2.25 -63.06 3976.00 -94.5833333
50 456 2.5 6.25 -39.06 1525.34 -976388889
51 346 3.5 12.25 -149.06 22217.56 -521.694444
52 382 4.5 20.25 -113.06 12781.56 -508.75
53 334 5.5 30.25 -161.06 25938.89 -885.805556

259 de 357
Segundo semestre
54 298 6.5 42.25 -197.06 38830.89 -1280.86111
55 252 7.5 56.25 -243.06 59076.00 -1822.91667
56 240 8.5 72.25 -255.06 65053.34 -2167.97222
57 244 9.5 90.25 -251.06 63028.89 -2385.027778
58 288 10.5 110.25 -207.06 42872.00 -2174.08333
59 218 11.5 132.25 -277.06 76759.78 -3186.13889
60 208 12.5 156.25 -287.06 82400.89 -3588.19444
61 146 13.5 182.25 -349.06 121839.78 -4712.25
62 130 14.5 210.25 -365.06 133265.56 -5293.30556
63 130 15.5 240.25 -365.06 133265.56 -5658.36111
64 122 16.5 272.25 -373.06 139170.45 -6155.41667
65 104 17.5 306.25 -391.06 152924.45 -6843.47222
3885 2662667 � ) (Yi-𝒀𝒀
∑(𝑿𝑿i-𝑿𝑿 �) -97975 � )2 (Yi-𝒀𝒀
∑(𝑿𝑿i-𝑿𝑿 � )2
10344464748

Fuente: elaboración propia con empleo de Microsoft Excel (2013).

260 de 357
Tercer semestre
Coeficiente de determinación R2

Para valorar el ajuste del modelo de regresión lineal simple, se considera otro
coeficiente llamado coeficiente de determinación, denotado como R2, que mide la
variabilidad explicada por el modelo. Para calcular el coeficiente de determinación, se
utiliza la siguiente fórmula:

𝟐𝟐
∑(� � )𝟐𝟐
𝒀𝒀𝒊𝒊 − 𝒀𝒀
𝑹𝑹 =
� )𝟐𝟐
∑(𝒀𝒀𝒊𝒊 − 𝒀𝒀

•
Donde:

R2 : coeficiente de determinación
Y�i ∶ i-ésima estimación de Y
Yi : i-ésima observación de Y
�: promedio de Y
Y

Para el ejemplo del número de accidentes por edad del conductor, el coeficiente de
determinación del modelo ajustado entre las dos variables 0.9279, esto significa que
el modelo explica en un 93% la variabilidad de la información. La tabla 3 muestra el
cálculo de los elementos que intervienen en la fórmula de R2.

261 de 357
Segundo semestre
Tabla 3. Memoria de cálculo de los elementos de la fórmula para calcular R2 entre el número de accidentes y la
edad del conductor
1 2 3 4 5 6 7 8
(3-4) (5)2 (2-4) (7)2
Xi Yi �i
𝒀𝒀 �
𝒀𝒀 � i-𝒀𝒀
(𝒀𝒀 �) � i-𝒀𝒀
(𝒀𝒀 � )2 �)
(Yi-𝒀𝒀 � )2
(Yi-𝒀𝒀
Edad Número de (-25.22 Promedio
accidentes edad de Y
conductor)
30 1004 936 495.06 441 194771.14 508.94 259024.448
31 946 911 416 173147.56 450.94 203350.892
32 914 886 391 152795.97 418.94 175514.448
33 742 861 366 133716.35 246.94 60981.5586
34 714 836 340 115908.70 218.94 47936.6698
35 842 810 315 99373.03 346.94 120370.448
36 744 785 290 84109.33 248.94 61973.3364
37 792 760 265 70117.61 296.94 88176.0031
38 844 735 240 57397.86 348.94 121762.225
39 722 709 214 45950.09 226.94 51503.7809
40 982 684 189 35774.29 486.94 237114.892
41 644 659 164 26870.47 148.94 22184.4475
42 594 634 139 19238.62 98.94 9790.00309
43 604 609 113 12878.74 108.94 11868.892
44 480 583 88 7790.85 -15.06 226.669753
45 570 558 63 3974.92 74.94 5616.66975
46 440 533 38 1430.97 -55.06 3031.1142
47 410 508 13 159.00 -85.06 7234.44753
48 504 482 -13 159.00 8.94 80.0030864

262 de 357
Segundo semestre
49 432 457 -38 1430.97 -63.06 3976.00309
50 456 432 -63 3974.92 -39.06 1525.33642
51 346 407 -88 7790.85 -149.06 22217.5586
52 382 382 -113 12878.74 -113.06 12781.5586
53 334 356 -139 19238.52 -161.06 25938.892
54 298 331 -164 26870.47 -197.06 38830.892
55 252 306 -189 35774.29 -243.06 59076.0031
56 240 281 -214 45950.09 -255.06 65053.3364
57 244 255 -240 57397.86 -251.06 63028.892
58 288 230 -265 70117.61 -207.06 42872.0031
59 218 205 -290 84109.33 -277.06 76759.7809
60 208 180 -315 99373.03 -287.06 82400.892
61 146 155 -340 115908.70 -349.06 121839.781
62 130 129 -366 133716.35 -365.06 133265.559
63 130 104 -391 152795.97 -365.06 133265.559
64 122 79 -416 173147.56 -373.06 139170.448
65 104 54 -441 194771.14 -391.06 152924.448
� i-𝒀𝒀
∑( 𝒀𝒀 � )2 2470810.97 � )2
∑(𝒀𝒀i-𝒀𝒀 2662667

Fuente: elaboración propia con empleo de Microsoft Excel (2013).

263 de 357
Tercer semestre
Así como en la tabla 2, en la parte superior de la tabla 3 se numera la columna (del 1
al 8), y en algunos casos, debajo de este número, se indican las columnas
involucradas en la obtención de sus cifras. Por ejemplo, los valores de la columna 5
se obtienen de restarle a los accidentes estimados (columna 3) el promedio
observado de accidentes (columna 4). Los valores involucrados en la fórmula del
coeficiente de determinación son los dos que se sitúan en la parte inferior de la tabla;
y al sustituirlos se obtiene:

𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐. 𝟗𝟗𝟗𝟗
𝑹𝑹𝟐𝟐 =
𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐. 𝟖𝟖𝟖𝟖
𝑹𝑹𝟐𝟐 = 𝟎𝟎. 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗

Es decir, el resultado comentado.

Análisis de regresión lineal simple con MS -Excel

Al igual que otras técnicas de análisis, Microsoft Excel (2013) permite realizar
regresión lineal simple en el módulo de análisis de datos. A continuación, se muestra
el uso de esta herramienta con los datos del ejemplo de los accidentes registrados
por edad del conductor.

Capturada la información en Excel, ir al menú de Datos, y seleccionar la opción

Análisis de datos, previamente cargada. Se desplegará una ventana de diálogo de
funciones para análisis, seleccionar Regresión.

264 de 357
Segundo semestre
Fuente: Microsoft Excel (2013).

Se despliega una nueva ventana de diálogo, donde se ingresa la información y se

determina la salida que se desea obtener. En el rango Y de entrada, seleccionar los
datos de la variable dependiente, es decir, el número de accidentes.

265 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

En el rango X de entrada, seleccionar los datos de la variable independiente, es

decir, la edad.

266 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

En opciones de Salida, indicar el rango de salida; y en la sección de Residuales, la

opción de Residuos. Finalmente, dar en Aceptar.

Es importante señalar que el nivel de significancia no se modifica. Excel toma por

defecto el 95% de confianza valor, medida base para determinar si nuestro modelo y
los parámetros de la ecuación lineal son o no significativos.

267 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

El cuadro-resumen que se proporciona es el siguiente. Algunas de las medidas

señaladas con azul fueron calculadas previamente.
RESUMEN
Estadísticas dele regresión
Coeficiente de correlación múltiple 0.963299334 r
Coeficiente de determinación R^2 0.927945607 R2
R^2 ajustado 0.925826361
Error típico 75.11890911 S
Observaciones 36 n

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de F Valor crítico
libertad cuadrados los cuadrados de F
Regresión 1 2470810.972 2470810.972 437.8657505 5.35232E-21
Residuos 34 191856.9172 5642.850506
Total 35 2662667.889

Coeficientes Error Típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 1692.948091 58.59935094 28.89021915 1.64442E-25 1573.859882 1812.036299
Variable X1 -25.21879022 1.20518512 -20.92524195 5.35232E-21 -27.66802105 -22.76955939

Fuente: elaboración propia con empleo de Microsoft Excel (2013).

268 de 357
Tercer semestre
Los resultados señalados con morado indican la significancia del modelo y de cada
uno de los parámetros. El primero (valor crítico de F) señala que el modelo lineal es
adecuado para la información que se analiza, pues es significativo por ser menor a
0.05. En el caso de los parámetros, dado que las probabilidades son menores a 0.05,
se rechaza la hipótesis nula de que los parámetros no son significativos y pueden
emplearse sin inconveniente en la ecuación.

Otra manera de calcular los parámetros β0 y β1 es con las funciones

intersecció[Link] ()
pendiente()

El empleo de estas funciones se ilustrará en la siguiente unidad.

269 de 357
Tercer semestre
RESUMEN
Se expusieron las bases para realizar un análisis de regresión lineal simple con la
información de dos variables observadas. En primer lugar, se mostró la ecuación
empleada en el modelo de regresión lineal simple partiendo de un repaso de la
ecuación general de la recta, y siguiendo con la metodología de mínimos cuadrados
para estimar la recta que garantiza el menor error de estimación.

Calculados los parámetros del modelo, se

planteó con un ejemplo la interpretación
de la pendiente y se enunciaron los
supuestos que debe cumplir el modelo
(es habitual no comprobar esto en la
práctica, por lo cual se sugiere
profundizar en el análisis de los residuos).

Después se revisó la forma de realizar inferencia sobre la pendiente, y el cálculo de

los coeficientes de correlación y determinación, los cuales indican, respectivamente,
el grado de asociación entre las variables y la variabilidad explicada por el modelo de
regresión lineal simple.

La unidad finaliza con un ejemplo de cómo ajustar un modelo de regresión lineal

simple con el módulo de análisis de datos de Microsoft Excel (2013).

270 de 357
Tercer semestre
BIBLIOGRAFÍA

SUGERIDA

Autor Capítulo Páginas

Anderson, S. (2016) 14 560-641
Levin, R. (2010) 12 509-564
Lind, D. (2015) 13 461-511

271 de 357
Tercer semestre
UNIDAD 7

Análisis de series de tiempo

272 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno conocerá los métodos para el análisis de series de
tiempo, así como su aplicación e interpretación.

TEMARIO DETALLADO
(8 horas)

7. Análisis de series de tiempo

7.1. Los cuatro componentes de una serie de tiempo
7.2. Análisis gráfico de la tendencia
7.3. Tendencia secular
7.4. Variaciones estacionales
7.5. Variaciones cíclicas
7.6. Fluctuaciones irregulares
7.7. Modelos autorregresivos de promedios móviles

273 de 357
Tercer semestre
INTRODUCCIÓN
A lo largo del curso, se ha insistido en que la Estadística II contribuye a la toma de
decisiones que, frecuentemente, deben realizarse con información recabada en el
tiempo. Por ejemplo, para un inversionista, el conocimiento de los estados de
resultados de una empresa durante los últimos cinco años le ayudaría a decidir si
invierte en acciones de esa compañía. O la disposición de dinero en los cajeros
automáticos permitiría determinar la cantidad de efectivo que la institución bancaria
debe abastecer cada semana para garantizar el servicio de sus cuentahabientes. O
el historial reciente de pagos de una persona facilitaría a una micro financiera
dedicada a dar créditos de autos a determinar si el individuo es sujeto de crédito.

Los ejemplos anteriores ilustran la aplicación del análisis de series de tiempo. En

esta unidad, se expondrá de manera básica el empleo de esta técnica (es labor del
estudiante profundizar en otras fuentes). En primer lugar, se define qué es una serie
de tiempo y se exponen los componentes que suelen integrarla. Después, se
muestra cómo realizar un análisis exploratorio con el apoyo de una gráfica que
permita visualizar la tendencia de la serie. El siguiente punto describe algunas
metodologías para trabajar la tendencia de una serie de tiempo a partir del manejo
de variaciones estacionales, cíclicas y fluctuaciones irregulares. Por último, se
abordan de manera breve las series estacionales y los modelos auto regresivos y de
medias móviles.

274 de 357
Tercer semestre
7.1. Los cuatro componentes
de una serie de tiempo
Una serie de tiempo es el registro de una variable a lo largo del tiempo realizado con
una periodicidad constante, por ejemplo, de forma diaria, semanal, mensual o anual.
La observación tomada en el tiempo t de una variable se denotará como Yt.

Las series de tiempo son aplicables por lo regular en todas las áreas de
conocimiento: en el índice nacional de precios al consumidor (INPC), tasa de
desempleo, cotización diaria del dólar norteamericano, evolución de los niveles de
colesterol de un paciente sometido a un estudio clínico en el que se estudia el efecto
de un medicamento, o las calificaciones de un alumno que periódicamente es
sometido a evaluaciones.

De acuerdo con la forma como se registra su información, las series se dividen en

discretas o continuas. Una serie de tiempo es discreta si las observaciones son
realizadas en momentos específicos, normalmente con una misma periodicidad (por
ejemplo, el número anual de suscriptores a una publicación). Y es continua si las
observaciones se registran de forma continua en el tiempo (como el ritmo cardiaco
de un paciente durante un examen médico).

Para facilitar el estudio de las series de tiempo, se dividen en cuatro partes:

a) Componente de tendencia (T)

b) Componente estacional (E)
c) Componente cíclico (C)
d) Componente de fluctuaciones irregulares (I)

275 de 357
Tercer semestre
Consideremos que no siempre se encuentran presentes los cuatro componentes en
una serie de tiempo. En las siguientes secciones, se explicarán cada uno de estos
componentes y su manejo.

Hay dos enfoques para asociar la serie de tiempo con sus componentes: aditivo y
multiplicativo. En el primero, la serie de tiempo se considera que es resultado de la
suma de sus componentes. De esta manera, la serie de tiempo Yt queda expresada
así:

Yt = Tt + Et + Ct + It

•
Donde:
Yt = valor de la serie al tiempo t
Tt = componente de tendencia al tiempo t
Et = componente estacional al tiempo t
Ct = componente de cíclico al tiempo t
It = componente irregular o aleatorio al tiempo t

Y en el enfoque multiplicativo, la serie de tiempo se considera que es resultado de

ajustar la tendencia con factores asociados a los otros componentes, por lo que la
serie de tiempo Yt queda expresada así:

Yt = Tt * Et * Ct * It

•
Donde:
Yt = valor de la serie al tiempo t
Tt = componente de tendencia al tiempo t
Et = factor estacional al tiempo t
Ct = factor cíclico al tiempo t
It = factor irregular o aleatorio al tiempo t

276 de 357
Tercer semestre
7.2. Análisis gráfico
de la tendencia
El primer paso para analizar una serie de tiempo es realizar, a modo de análisis
exploratorio, una gráfica de líneas, donde en el eje X se ubicará el tiempo y en el eje
Y el valor de la serie a lo largo del periodo. El análisis gráfico permitirá visualizar los
componentes de la serie (por lo regular, la tendencia es el componente más
evidente).

Una serie de tiempo muestra una tendencia si existe un crecimiento o disminución

durante el periodo que se está analizando. Si la gráfica de la serie muestra un
crecimiento continuo a lo largo del tiempo, se dice que la serie tiene una tendencia
positiva (véase figura 1).
Figura 1. Serie de tiempo con tendencia positiva

Fuente: elaboración propia.

La figura anterior muestra una serie cuyo valor en general se incrementa a medida
que va transcurriendo el tiempo.

277 de 357
Tercer semestre
Si la gráfica expresa un decrecimiento continuo a lo largo del tiempo, se dice que la
serie presenta una tendencia negativa (véase figura 2).

Figura 2. Serie de tiempo con tendencia negativa

Fuente: elaboración propia.

La figura anterior muestra una serie cuyo valor, en general, decrece conforme
transcurre el tiempo.

Una serie sin tendencia presentará variaciones alrededor de un solo valor a lo largo
del tiempo, similar a lo que la presenta la figura 3.

Figura 3. Serie de tiempo sin tendencia

Fuente: elaboración propia.

En el análisis de series de tiempo, la realización de una gráfica es un paso casi

forzado, en tanto permite conocer de forma visual su comportamiento y determinar el
tratamiento que se dará a la serie. En la siguiente sección, se explicará cómo trabajar
con la tendencia.

278 de 357
Tercer semestre
7.3. Tendencia secular
En el apartado anterior, se mencionó que el análisis de series de tiempo comienza
con una exploración gráfica en donde se identifican los componentes más notables.
Ahora, en este subtema, se explicará el componente de tendencia, que normalmente
destaca más en una serie de tiempo; y para estimarla se aplicarán los métodos de
regresión lineal y de promedios móviles.

La tendencia de una serie es la trayectoria o dirección que toma esa tendencia

conforme avanza el tiempo. La importancia de este componente radica en que
permite estimar el valor de una serie en un momento futuro. Por ejemplo, supóngase
que el área de finanzas de cierta organización dedicada a realizar estudios de
mercado se encuentra evaluando el presupuesto del siguiente año destinado a
proporcionar un apoyo económico a los encuestadores asignados a la ciudad para
traslado. Un análisis del precio del transporte público durante los últimos veinte años
mostraría la manera como se ha ido incrementando, lo que permitiría establecer una
estimación del precio en que se encontraría el servicio para el siguiente año.

A fin de estimar la tendencia, se acostumbra

utilizar el modelo de regresión lineal simple
o los promedios móviles. A continuación, se
muestra en un ejemplo la aplicación de
estos métodos.

279 de 357
Tercer semestre
Estimación de la tendencia con el modelo de regresión lineal simple

Con el método de regresión lineal simple, se estima una tendencia lineal al

considerar que la variable dependiente es la serie y la independiente el tiempo. A
continuación, se plantea un ejemplo.

Desde enero de 2013, la fábrica ABC requiere, para la

producción de cierta tinta, un insumo químico, cuyo precio
varía cada mes. Con la intención de diseñar un plan de
adquisiciones, el área de finanzas desea estimar cuál será
el precio al final del 2014, con la información de enero de
2013 a agosto de 2014.

Se muestra a continuación la información con la que cuenta el área de finanzas.

Precio promedio del insumo durante

enero de 2013 a agosto de 2014
Mes Precio Mes Precio Mes Precio Mes Precio
ene-13 10.92 jun-13 11.47 nov-13 12.02 abr-14 12.59
feb-13 11.03 jul-13 11.58 dic-13 12.13 may-14 12.68
mar-13 11.14 ago-13 11.69 ene-14 12.32 jun-14 12.77
abr-13 11.25 sep-13 11.80 feb-14 12.41 jul-14 12.86
may-13 11.36 oct-13 11.91 mar-14 12.50 ago-14 12.95
Precio por unidad de medida en pesos.

Se muestra en la siguiente gráfica el comportamiento del precio del insumo durante

el periodo de análisis.

280 de 357
Tercer semestre
Precio del insumo de enero de 2013 a agosto de 2014
15,00

14,00

13,00
Precio ($)

12,00

11,00

10,00
feb-13

jul-13

feb-14

jul-14
may-13
jun-13

ago-13

may-14
jun-14

ago-14
nov-13
mar-13

mar-14
ene-13

sep-13

ene-14
dic-13
oct-13
abr-13

abr-14
Mes

La gráfica muestra que, al comienzo del periodo de análisis, el precio de la unidad

del insumo era casi de 11 pesos, y al finalizar se encuentra cerca de los 13 pesos.
Se observa que, conforme han transcurrido los meses, el precio se asciende: la serie
muestra una tendencia creciente. Para estimar la tendencia lineal que muestra la
serie, se recurrirá al método de mínimos cuadrados (en este caso, la variable
dependiente será el precio del insumo y la independiente el mes).

Antes de aplicar el método de mínimos cuadrados, se deberá realizar una

adecuación a la variable independiente, que consiste en asignarle un valor numérico
a cada mes. En este ejemplo, como la producción de la tinta comenzó a partir de
enero de 2013, a esa observación se le asigna el valor 1, al siguiente mes el valor 2,
y así sucesivamente hasta el valor 20, como se advierte en la tabla siguiente.

281 de 357
Tercer semestre
X Mes Precio (Y) X Mes Precio (Y)
1 ene-13 10.92 11 nov-13 12.02
2 feb-13 11.03 12 dic-13 12.13
3 mar-13 11.14 13 ene-14 12.32
4 abr-13 11.25 14 feb-14 12.41
5 may-13 11.36 15 mar-14 12.50
6 jun-13 11.47 16 abr-14 12.59
7 jul-13 11.58 17 may-14 12.68
8 ago-13 11.69 18 jun-14 12.77
9 sep-13 11.80 19 jul-14 12.86
10 oct-13 11.91 20 ago-14 12.95

De esta manera, en el modelo se utilizarán las variables precio (Y) y X.

En la unidad anterior, se estudió cómo correr un modelo de regresión lineal simple en

el módulo de análisis de datos en MS-Excel, a continuación, se utilizarán las
funciones

intersecció[Link]()
pendiente()

para obtener los estimadores de los parámetros β0 y β1, respectivamente.

Para calcular β0, en la función intersecció[Link]() se ingresan los valores de Y, se pone

una coma y se procede a ingresar los valores de X.

282 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

Al dar enter, se despliega el resultado (10.82).

Para calcular β1, en la función pendiente () se ingresan también los valores de la

variable Y y X (en ese orden) separados por una coma.

Fuente: Microsoft Excel (2013).

Al dar enter, se despliega el resultado (0.11).

Entonces, la ecuación de mínimos cuadrados es

Precio = 10.82 + 0.11x

283 de 357
Tercer semestre
El modelo indica que, antes de comenzar a producir la tinta (en X = 0), el precio del
insumo se encontraba en $10.82, y desde ese momento, por cada mes que
transcurre, el precio del insumo se eleva 11 centavos. Luego, esta ecuación es la
tendencia de la serie.

Determinada la tendencia, se puede estimar el precio del insumo para los meses de
septiembre a diciembre del año actual sustituyendo en la ecuación el número que
corresponde al mes (21, 22, 23 o 24). De esta manera, se espera que en diciembre
el precio del insumo se encuentre en 10.82 + (0.11)⋅(24) = 13.46.

Para calcular los pronósticos, añadimos el número de periodos que se van a

pronosticar. Si se desea conocer el precio de la gasolina de los meses 21, 22 y 23
(septiembre, octubre, noviembre), aplicamos la fórmula obtenida de la regresión
lineal para dichos meses.

Como una observación final a este apartado, es importante definir si, de acuerdo con
el contexto de la serie a analizar, es necesario identificar un punto donde la variable
independiente (X) tome el valor de 0.

Estimación de la tendencia con el método de promedios móviles

El método de promedios móviles (PM) consiste en construir una nueva serie con los
promedios de los datos establecidos por el orden.

El orden de un promedio móvil se refiere al número de datos consecutivos a

promediar. Por ejemplo, en un promedio móvil de orden dos (PM2), se promedia cada
conjunto de dos datos consecutivos; en uno de orden tres (PM3), cada conjunto de
tres datos consecutivos, y así sucesivamente.

284 de 357
Tercer semestre
Un promedio móvil de orden n (PMn) se obtiene así:

𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍𝒍𝒍 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍𝒍𝒍 𝒏𝒏 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒎𝒎𝒎𝒎𝒎 𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓

𝑷𝑷𝑷𝑷𝒏𝒏 =
𝒏𝒏

Supóngase que un profesor de Estadística aplica evaluaciones mensuales a sus

alumnos. Las calificaciones de los cinco exámenes realizados por un estudiante de la
clase son los siguientes:

Mes Calificación
1 7
2 8
3 7
4 9
5 6

El promedio móvil de orden dos (PM2) se obtiene de la siguiente manera:

1. Se promedian las dos primeras calificaciones (7 y 8) y se coloca el resultado en el

segundo valor de la nueva serie (PM2):
Mes Calificación PM2
1 7
2 8 7.5 𝟕𝟕 + 𝟖𝟖
𝟐𝟐
3 7
4 9
5 6

2. El siguiente valor de la nueva serie (PM2) se obtiene de promediar las

calificaciones de los meses 2 y 3 (8 y 7):

285 de 357
Tercer semestre
Mes Calificación PM2
1 7
2 8 7.5 𝟖𝟖 + 𝟕𝟕
𝟐𝟐
3 7 7.5
4 9
5 6

3. Seguir con el procedimiento hasta realizar el promedio de las últimas calificaciones

(9 y 6):
Mes Calificación PM2
1 7
2 8 7.5
3 7 7.5
4 9 8
5 6 𝟕𝟕 + 𝟗𝟗
𝟐𝟐

Mes Calificación PM2

1 7
2 8 7.5
3 7 7.5
4 9 8
5 6 7.5 𝟗𝟗 + 𝟔𝟔
𝟐𝟐

El promedio móvil de orden tres (PM3) se obtiene de la siguiente manera.

1. Se promedian las primeras tres calificaciones (7, 8 y 7) y el resultado se coloca en

la nueva serie PM3, centrado en la segunda posición:

286 de 357
Tercer semestre
Mes Calificación PM3
1 7
2 8 7.3 𝟕𝟕 + 𝟖𝟖 + 𝟕𝟕
𝟑𝟑
3 7
4 9
5 6

2. El siguiente valor de la nueva serie PM3 se obtiene de promediar las calificaciones

de los meses 2, 3 y 4 (8, 7 y 9):

Mes Calificación PM3

1 7
2 8 7.3
3 7 8.0 𝟖𝟖 + 𝟕𝟕 + 𝟗𝟗
𝟑𝟑
4 9
5 6

3. Finalmente, se calcula el promedio de los últimos tres valores (7, 9 y 6) y se

registra el resultado en la nueva serie:

Mes Calificación PM3

1 7
2 8 7.3
3 7 8.0 𝟕𝟕 + 𝟗𝟗 + 𝟔𝟔
𝟑𝟑
4 9 7.3
5 6

Como es imposible seguir promediando tres valores, la nueva serie PM3 solamente
tendrá tres elementos. Es importante mencionar que, conforme aumenta el orden, la
nueva serie va teniendo menos valores respecto a la serie original.

287 de 357
Tercer semestre
La siguiente gráfica muestra el comportamiento de las calificaciones del estudiante y
los promedios móviles de orden 2 y 3.

10,0

9,0
Calificación

8,0

7,0

6,0

5,0
1 2 3 4 5
Mes

Calificación PM2 PM3

La serie de color azul de la gráfica representa el comportamiento del estudiante en

las cinco evaluaciones realizadas en el curso; la serie de color rojo es el promedio
móvil de orden dos, y la serie de color gris el promedio móvil de orden tres. Los
promedios móviles son un suavizamiento de la serie original y muestran la tendencia
de la serie. Para este ejemplo, el promedio móvil de orden dos explica mejor la
tendencia de las calificaciones del estudiante, y refleja que sus calificaciones se
encuentran alrededor de 7.5.

Supóngase ahora que restan dos evaluaciones al curso, ¿qué calificaciones se

esperan de este estudiante? Para realizar el pronóstico, se utilizará el promedio móvil
de orden dos, que para este ejemplo describe mejor la tendencia, y se procederá de
la siguiente manera.

288 de 357
Tercer semestre
1. Asumir que el último valor del promedio móvil se observará en el siguiente mes:

Mes Calificación PM2

1 7.0
2 8.0 7.5
3 7.0 7.5
4 9.0 8.0
5 6.0 7.5
6 7.5

2. Promediar las calificaciones de los meses 5 y 6 (6 y 7.5), y colocar el resultado en

la posición 6 del promedio móvil:

Mes Calificación PM2

1 7.0
2 8.0 7.5
3 7.0 7.5
4 9.0 8.0
5 6.0 7.5
6 7.5 6.8

3. Repetir el procedimiento descrito en los puntos anteriores para estimar la última

calificación:
Mes Calificación PM2
1 7.0
2 8.0 7.5
3 7.0 7.5
4 9.0 8.0
5 6.0 7.5
6 7.5 6.8
7 6.8 7.2

289 de 357
Tercer semestre
De esta manera, de acuerdo con la tendencia mostrada por el promedio móvil de
orden dos, se espera que el estudiante obtenga calificaciones de 6.8 y 7.2 en las
evaluaciones faltantes.

Obtención de un promedio móvil con MS-Excel

MS-Excel permite obtener un promedio móvil al utilizar el módulo de análisis de

datos, para hacerlo se procede así.

1. Acceder al menú Datos, seleccionar Análisis de datos y Media Móvil.

Fuente: Microsoft Excel (2013).

Se desplegará una ventana de diálogo que solicitará información de entrada y de

salida.

290 de 357
Tercer semestre
En la sección Rango de entrada, seleccionar los datos de la variable; en Intervalo,
indicar el rango deseado; y seleccionar el sitio en la hoja de cálculo en donde quiere
que se despliegue el resultado en Rango de salida. Dar Aceptar.

Fuente: Microsoft Excel (2013).

Aparecerá una columna con los datos del promedio móvil.

291 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).

292 de 357
Tercer semestre
7.4. Variaciones estacionales
En esta sección, se expondrá otro componente de una serie de tiempo: la
estacionalidad. Una serie de tiempo tiene un comportamiento estacional si de forma
periódica registra cambios a lo largo de un año. Por ejemplo, las ventas de una
papelería muestran un comportamiento estacional caracterizado por un incremento
durante los meses de julio y agosto, previo al comienzo del ciclo escolar del nivel
básico. O la venta de pescados y mariscos crece un mes previo a las festividades de
Semana Santa.

En la práctica, la manera de trabajar el componente de estacionalidad es calculando

factores que se aplican a la tendencia.

A continuación, se analizará un ejemplo del tratamiento de este componente. Se

muestra el indicador de comercio al por menor en México referente a artículos de
papelería, libros, revistas y periódicos en el periodo, de enero de 2010 a diciembre
de 2013.

293 de 357
Tercer semestre
Indicador de comercio al por menor en artículos de papelería, libros, revistas
y periódicos, de enero de 2010 a diciembre de 2013
Mes 2010 2011 2012 2013
Enero 57.0 58.7 67.2 70.1
Febrero 65.1 63.2 67.4 68.9
Marzo 77.6 69.9 74.8 66.0
Abril 63.1 63.9 67.5 73.3
Mayo 71.8 64.9 81.4 76.2
Junio 81.1 71.4 86.5 83.5
Julio 71.7 82.0 104.7 91.8
Agosto 96.9 95.4 90.9 113.1
Septiembre 88.7 86.7 98.5 74.4
Octubre 67.7 67.0 73.4 70.6
Noviembre 74.3 63.9 73.0 71.4
Diciembre 81.2 68.2 81.4 78.7
Base 2008.
Fuente: [Link]. fecha de consulta 7/06/2015

En la siguiente gráfica, se muestra el comportamiento de la serie.

120

100

80
Índice

0
2010/01
2010/03
2010/05
2010/07
2010/09
2010/11
2011/01
2011/03
2011/05
2011/07
2011/09
2011/11
2012/01
2012/03
2012/05
2012/07
2012/09
2012/11
2013/01
2013/03
2013/05
2013/07
2013/09
2013/11

Mes

La gráfica muestra que el índice en el periodo de análisis tiene una tendencia

creciente, y alrededor de ella se aprecia que hay meses en que disminuye y meses
donde se incrementa. En consecuencia, la serie cuenta con un componente de
estacionalidad.

294 de 357
Tercer semestre
Ahora bien, los factores de estacionalidad se calcularán de la siguiente manera.

A partir de la serie original, se construye un promedio móvil de orden 12, centrado de

tal manera que se pierden los primeros y últimos seis meses.
Mes Índice PM12
ene-10 57.0
feb-10 65.1
mar-10 77.6
abr-10 63.1
may-10 71.8
jun-10 81.1
jul-10 71.7 74.7
ago-10 96.9 74.8
sep-10 88.7 74.7
oct-10 67.7 74.0
nov-10 74.3 74.1
dic-10 81.2 73.5
ene-11 58.7 72.7
feb-11 63.2 73.6
mar-11 69.9 73.4
abr-11 63.9 73.3
may-11 64.9 73.2
jun-11 71.4 72.3
jul-11 82.0 71.3
ago-11 95.4 72.0
sep-11 86.7 72.3
oct-11 67.0 72.7
nov-11 63.9 73.0
dic-11 68.2 74.4
ene-12 67.2 75.7
feb-12 67.4 77.6
mar-12 74.8 77.2
abr-12 67.5 78.2
may-12 81.4 78.7
jun-12 86.5 79.5
jul-12 104.7 80.6
ago-12 90.9 80.8
sep-12 98.5 80.9
oct-12 73.4 80.2
nov-12 73.0 80.7
dic-12 81.4 80.3
ene-13 70.1 80.0
feb-13 68.9 78.9
mar-13 66.0 80.8
abr-13 73.3 78.8
may-13 76.2 78.5

295 de 357
Tercer semestre
jun-13 83.5 78.4
jul-13 91.8
ago-13 113.1
sep-13 74.4
oct-13 70.6
nov-13 71.4
dic-13 78.7

El primer punto del promedio móvil se obtiene al promediar los primeros 12 valores
de la serie y se encontrará ubicado de manera que separa seis meses antes y
después de él; es decir, se halla en el 15 de junio y el siguiente en el 15 de julio, para
llevarlo al primero de julio se vuelve a construir un promedio móvil de orden 2.
Mes Índice PM12 PM12_ajustado
ene-10 57.0
feb-10 65.1
mar-10 77.6
abr-10 63.1
may-10 71.8
jun-10 81.1
jul-10 71.7 74.7 74.7
ago-10 96.9 74.8 74.7
sep-10 88.7 74.7 74.3
oct-10 67.7 74.0 74.0
nov-10 74.3 74.1 73.8
dic-10 81.2 73.5 73.1
ene-11 58.7 72.7 73.1
feb-11 63.2 73.6 73.5
mar-11 69.9 73.4 73.4
abr-11 63.9 73.3 73.2
may-11 64.9 73.2 72.8
jun-11 71.4 72.3 71.8
jul-11 82.0 71.3 71.6
ago-11 95.4 72.0 72.1
sep-11 86.7 72.3 72.5
oct-11 67.0 72.7 72.9
nov-11 63.9 73.0 73.7
dic-11 68.2 74.4 75.0
ene-12 67.2 75.7 76.6
feb-12 67.4 77.6 77.4
mar-12 74.8 77.2 77.7
abr-12 67.5 78.2 78.4
may-12 81.4 78.7 79.1
jun-12 86.5 79.5 80.0
jul-12 104.7 80.6 80.7
ago-12 90.9 80.8 80.9
sep-12 98.5 80.9 80.6

296 de 357
Tercer semestre
oct-12 73.4 80.2 80.4
nov-12 73.0 80.7 80.5
dic-12 81.4 80.3 80.1
ene-13 70.1 80.0 79.5
feb-13 68.9 78.9 79.8
mar-13 66.0 80.8 79.8
abr-13 73.3 78.8 78.7
may-13 76.2 78.5 78.5
jun-13 83.5 78.4 78.4
jul-13 91.8
ago-13 113.1
sep-13 74.4
oct-13 70.6
nov-13 71.4
dic-13 78.7

El primer valor de la última serie se obtuvo al promediar los primeros dos valores del
promedio móvil de orden 12. El segundo valor de la nueva serie es resultado de
promediar el segundo y tercero del promedio móvil de orden 12, y así
sucesivamente.

La siguiente gráfica muestra un comparativo entre el comportamiento de la serie

original y el promedio móvil ajustado.

120,0

100,0

80,0
Índice

60,0

40,0

20,0

0,0
jul-10

jul-11

jul-12

jul-13
ene-10

ene-11

ene-12

ene-13
oct-10

oct-11

oct-12

oct-13
abr-10

abr-11

abr-12

abr-13

Mes

Índice PM12_ajustado

En la gráfica anterior, se plantea el comportamiento de la serie y del promedio móvil,

que en este caso funciona como un eje alrededor del cual varía la serie original.

297 de 357
Tercer semestre
El siguiente paso es calcular la variación de cada punto respecto al promedio móvil
dividiendo el valor original de la serie entre el promedio móvil.
Mes Índice PM12 PM12_ajustado Variación
ene-10 57.0
feb-10 65.1
mar-10 77.6
abr-10 63.1
may-10 71.8
jun-10 81.1
jul-10 71.7 74.7 74.7 0.96
ago-10 96.9 74.8 74.7 1.30
sep-10 88.7 74.7 74.3 1.19
oct-10 67.7 74.0 74.0 0.91
nov-10 74.3 74.1 73.8 1.01
dic-10 81.2 73.5 73.1 1.11
ene-11 58.7 72.7 73.1 0.80
feb-11 63.2 73.6 73.5 0.86
mar-11 69.9 73.4 73.4 0.95
abr-11 63.9 73.3 73.2 0.87
may-11 64.9 73.2 72.8 0.89
jun-11 71.4 72.3 71.8 0.99
jul-11 82.0 71.3 71.6 1.15
ago-11 95.4 72.0 72.1 1.32
sep-11 86.7 72.3 72.5 1.20
oct-11 67.0 72.7 72.9 0.92
nov-11 63.9 73.0 73.7 0.87
dic-11 68.2 74.4 75.0 0.91
ene-12 67.2 75.7 76.6 0.88
feb-12 67.4 77.6 77.4 0.87
mar-12 74.8 77.2 77.7 0.96
abr-12 67.5 78.2 78.4 0.86
may-12 81.4 78.7 79.1 1.03
jun-12 86.5 79.5 80.0 1.08
jul-12 104.7 80.6 80.7 1.30
ago-12 90.9 80.8 80.9 1.12
sep-12 98.5 80.9 80.6 1.22
oct-12 73.4 80.2 80.4 0.91
nov-12 73.0 80.7 80.5 0.91
dic-12 81.4 80.3 80.1 1.02
ene-13 70.1 80.0 79.5 0.88
feb-13 68.9 78.9 79.8 0.86
mar-13 66.0 80.8 79.8 0.83
abr-13 73.3 78.8 78.7 0.93
may-13 76.2 78.5 78.5 0.97

298 de 357
Tercer semestre
jun-13 83.5 78.4 78.4 1.06
jul-13 91.8
ago-13 113.1
sep-13 74.4
oct-13 70.6
nov-13 71.4
dic-13 78.7

El primer valor de la serie de variaciones se obtuvo de dividir 71.7 (valor original de la

serie) entre 74.7 (promedio móvil ajustado). El valor resultante de 0.96 significa que
el índice observado en julio de 2010 se encontró 4% debajo del promedio. De
manera similar, se procedió con el resto de los valores.

Se llega a los factores estacionales mensuales promediando todas las variaciones

obtenidas en el mismo mes.

Mes 2010 2011 2012 2013 Promedio

Enero 0.80 0.88 0.88 0.85
Febrero 0.86 0.87 0.86 0.86
Marzo 0.95 0.96 0.83 0.91
Abril 0.87 0.86 0.93 0.89
Mayo 0.89 1.03 0.97 0.96
Junio 0.99 1.08 1.06 1.05
Julio 0.96 1.15 1.30 1.13
Agosto 1.30 1.32 1.12 1.25
Septiembre 1.19 1.20 1.22 1.20
Octubre 0.91 0.92 0.91 0.91
Noviembre 1.01 0.87 0.91 0.93
Diciembre 1.11 0.91 1.02 1.01

Como el promedio móvil ajustado parte de julio de 2010 y termina en junio de 2013,
en cada mes se calcularon tres variaciones, que al promediarse serán los factores
estacionales.

Los factores estacionales muestran una mayor actividad en los meses de julio,
agosto y septiembre, donde el índice es, respectivamente, 13%, 25% y 20% mayor al
promedio. La menor actividad se registra en enero y febrero, donde los factores son
0.85 y 0.86.

299 de 357
Tercer semestre
Una vez calculados los factores estacionales, sigue desestacionalizar los datos,
dividiendo el valor original de la serie entre el factor que le corresponda.

Mes Índice Factor Índice

desestacionalizado
ene-10 57.0 0.85 66.7
feb-10 65.1 0.86 75.3
mar-10 77.6 0.91 84.8
abr-10 63.1 0.89 71.0
may-10 71.8 0.96 74.4
jun-10 81.1 1.05 77.5
jul-10 71.7 1.13 63.2
ago-10 96.9 1.25 77.7
sep-10 88.7 1.20 73.7
oct-10 67.7 0.91 73.9
nov-10 74.3 0.93 80.1
dic-10 81.2 1.01 80.2
ene-11 58.7 0.85 68.8
feb-11 63.2 0.86 73.1
mar-11 69.9 0.91 76.4
abr-11 63.9 0.89 71.9
may-11 64.9 0.96 67.3
jun-11 71.4 1.05 68.2
jul-11 82.0 1.13 72.3
ago-11 95.4 1.25 76.5
sep-11 86.7 1.20 72.0
oct-11 67.0 0.91 73.2
nov-11 63.9 0.93 68.9
dic-11 68.2 1.01 67.4
ene-12 67.2 0.85 78.6
feb-12 67.4 0.86 77.9
mar-12 74.8 0.91 81.8
abr-12 67.5 0.89 76.0
may-12 81.4 0.96 84.5
jun-12 86.5 1.05 82.6
jul-12 104.7 1.13 92.3
ago-12 90.9 1.25 72.9
sep-12 98.5 1.20 81.8
oct-12 73.4 0.91 80.2
nov-12 73.0 0.93 78.8
dic-12 81.4 1.01 80.5
ene-13 70.1 0.85 82.1
feb-13 68.9 0.86 79.7
mar-13 66.0 0.91 72.2
abr-13 73.3 0.89 82.5

300 de 357
Tercer semestre
may-13 76.2 0.96 79.1
jun-13 83.5 1.05 79.8
jul-13 91.8 1.13 80.9
ago-13 113.1 1.25 90.6
sep-13 74.4 1.20 61.8
oct-13 70.6 0.91 77.2
nov-13 71.4 0.93 77.0
dic-13 78.7 1.01 77.8

En la tabla anterior, los valores de la última columna son resultado de dividir el índice
entre el factor.

La serie desestacionalizada queda así:

100,0
90,0
Índice desestacionalizado

80,0
70,0
60,0
50,0
40,0
30,0
20,0
10,0
0,0
ene-10

may-10
jul-10
sep-10
mar-10

nov-10
ene-11

may-11
jul-11
sep-11
nov-11

may-12
jul-12
sep-12
nov-12

may-13
jul-13
sep-13
mar-11

ene-12
mar-12

ene-13
mar-13

nov-13

Mes

La gráfica anterior muestra los datos desestacionalizados, que no reflejan una

tendencia aparente. Para confirmar lo anterior, se ajusta una regresión, la cual indica
que sí existe una tendencia.

Coeficientes Error típico Estadístico t Probabilidad

Intercepción 73.0707108 1.82817565 39.969196 8.4506E-37
Índice desestacionalizado 0.1381169 0.06427523 2.14883546 0.03706385

Entonces, la tendencia de los datos desestacionalizados es 𝒚𝒚𝒕𝒕 = 𝟕𝟕𝟕𝟕. 𝟎𝟎𝟎𝟎 + 𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏

301 de 357
Tercer semestre
La ecuación expresa que, por cada mes transcurrido, el índice desestacionalizado se
incrementa en 0.14.

Supóngase que se desea realizar un pronóstico para los siguientes cinco meses, es
decir, para las observaciones 49, 50, 51, 52 y 53. Primero, se sustituyen estos
valores en el modelo de la tendencia:

t 73.07 + 0.14t
49 73.07 + (0.14)⋅(49) = 79.93
50 73.07 + (0.14)⋅(50) = 80.07
51 73.07 + (0.14)⋅(51) = 80.21
52 73.07 + (0.14)⋅(52) = 80.35
53 73.07 + (0.14)⋅(53) = 80.49

Los valores obtenidos se multiplican por el factor estacional:

t Índice Factor Pronóstico

desestacionalizado estacional
49 79.93 0.85 68.26
50 80.07 0.86 69.20
51 80.21 0.91 73.34
52 80.35 0.89 71.36
53 80.49 0.96 77.63

De esta manera, se alcanza el pronóstico.

302 de 357
Tercer semestre
7.5. Variaciones cíclicas
En la sección anterior, se trató cómo trabajar el componente estacional de una serie,
el cual ofrece las variaciones que se presentan a lo largo de un año. Ahora, en este
subtema se muestra el tratamiento de variaciones presentadas en periodos mayores
a un año, los cuales son el componente de ciclicidad.

Un ciclo consiste en cambios ascendentes y descendentes en la serie respecto a su

tendencia, con duración mayor a un año. Ejemplos de ello son los ciclos económicos
caracterizados por un periodo de expansión y recesión, o el ciclo de vida de un
producto.

Un componente cíclico tiene un comportamiento parecido al de la figura siguiente:

Fuente: elaboración propia.

Como se muestra en la figura anterior, el ciclo se integra de dos partes: una

expansiva, donde la serie aumenta de valor; y otra recesiva, donde disminuye el
valor.

303 de 357
Tercer semestre
En cuanto al tratamiento que se dará a este componente, será bajo un enfoque
aditivo. A continuación, se expone un ejemplo.

En la siguiente tabla, se muestra la población escolar de posgrado de cierta

institución entre 2000 y 2015.

Población
Año escolar de
posgrado
2000 17,270
2001 16,547
2002 17,910
2003 18,530
2004 18,987
2005 19,765
2006 20,747
2007 21,230
2008 22,527
2009 23,875
2010 25,036
2011 25,167
2012 26,169
2013 26,878
2014 27,210
2015 28,018

En el periodo de análisis, se advierte que la población creció de 17 270 en el año

2000 a 28 018 en 2015. Al graficar la serie, se observa el siguiente comportamiento:

304 de 357
Tercer semestre
Población escolar de posgrado
29,000

27,000

25,000

23,000

21,000

19,000

17,000

15,000
2000 2002 2004 2006 2008 2010 2012 2014

La gráfica anterior manifiesta el crecimiento de la población de posgrado,

caracterizado por una serie con tendencia positiva. A continuación se estimará la
tendencia, con una regresión lineal simple a la serie, y se obtendrá la y estimada.

Población
Tendencia
Consecutivo Año escolar de
�
𝒚𝒚
posgrado
1 2000 17,270 16203
2 2001 16,547 17008 15397.45 Intersección
3 2002 17,910 17813 805.197059 Pendiente
4 2003 18,530 18618
5 2004 18,987 19423
6 2005 19,765 20229
7 2006 20,747 21034
8 2007 21,230 21839
9 2008 22,527 22644
10 2009 23,875 23449
11 2010 25,036 24255
12 2011 25,167 25060
13 2012 26,169 25865
14 2013 26,878 26670
15 2014 27,210 27475
16 2015 28,018 28281

Fuente: elaboración propia con Microsoft Excel (2013).

305 de 357
Tercer semestre
La tendencia de la población de posgrado se estima con la siguiente ecuación:

Población escolar de posgrado = 15,397 + 805 año

Enseguida, se elimina el componente de tendencia a la serie original. Para hacerlo,

se resta la tendencia a los valores originales:

Población Sin
Tendencia
Consecutivo Año escolar de tendencia
�
𝒚𝒚
posgrado �
𝒚𝒚 − 𝒚𝒚
1 2000 17,270 16,203 1,067
2 2001 16,547 17,008 - 461
3 2002 17,910 17,813 97
4 2003 18,530 18,618 - 88
5 2004 18,987 19,423 - 436
6 2005 19,765 20,229 - 464
7 2006 20,747 21,034 - 287
8 2007 21,230 21,839 - 609
9 2008 22,527 22,644 - 117
10 2009 23,875 23,449 426
11 2010 25,036 24,255 781
12 2011 25,167 25,060 107
13 2012 26,169 25,865 304
14 2013 26,878 26,670 208
15 2014 27,210 27,475 - 265
16 2015 28,018 28,281 - 263

El cuadro anterior presenta la serie original y la tendencia calculada con el modelo de

regresión. La última columna es la serie sin tendencia, resultado de restar la
tendencia de la serie original.

Ahora, la serie sin tendencia luce así:

306 de 357
Tercer semestre
y-
1,200
1,000
800
600
400
200
-
-200 2000 2002 2004 2006 2008 2010 2012 2014

-400
-600
-800

La gráfica representa una serie con un comportamiento que se acerca a un ciclo.

Obsérvese que aproximadamente cada tres años se cumple el ciclo, por lo que se
utilizará un promedio móvil de orden 3 para obtener el componente cíclico (véase la
siguiente tabla).

Sin Ciclo
Año tendencia PM3
�
𝒚𝒚 − 𝒚𝒚
2000 1,067
2001 - 461 234
2002 97 - 151
2003 - 88 - 143
2004 - 436 - 329
2005 - 464 - 396
2006 - 287 - 453
2007 - 609 - 338
2008 - 117 - 100
2009 426 363
2010 781 438
2011 107 398
2012 304 206
2013 208 82
2014 - 265 - 107
2015 - 263

La tabla anterior expresa la nueva serie obtenida con el promedio móvil de orden 3,
que al graficarse muestra el componente cíclico:

307 de 357
Tercer semestre
500
400
300
200
100
0
-100 2000 2002 2004 2006 2008 2010 2012 2014

-200
-300
-400
-500

Para quitar el ciclo, se resta el componente a la serie sin tendencia:

Año Población Sin Ciclo Aleatorio

escolar de tendenci PM3 (𝒚𝒚 − 𝒚𝒚
�) − 𝐏𝐏𝐏𝐏𝐏𝐏
posgrado a 𝒚𝒚 − 𝒚𝒚
�
2000 17,270 1,067 1067
2001 16,547 - 461 234 - 695
2002 17,910 97 -151 248
2003 18,530 - 88 -143 54
2004 18,987 - 436 -329 - 107
2005 19,765 - 464 -396 -68
2006 20,747 - 287 -453 166
2007 21,230 - 609 -338 - 271
2008 22,527 - 117 -100 - 17
2009 23,875 426 363 62
2010 25,036 781 438 343
2011 25,167 107 398 - 290
2012 26,169 304 206 98
2013 26,878 208 82 126
2014 27,210 - 265 -107 - 159
2015 28,018 - 263 - 263

308 de 357
Tercer semestre
El resultado es una serie irregular o aleatoria:

1200
1000
800
600
400
200
0
-200 2000 2002 2004 2006 2008 2010 2012 2014

-400
-600
-800

Supóngase que se necesita realizar un pronóstico de alumnos de posgrado del 2016

al 2019. Para hacerlo, se darán los siguientes pasos.

1. Pronosticar la tendencia en los periodos futuros con la ecuación lineal.

Población escolar de posgrado = 15,397 + 805 año

Población Sin Ciclo PM3 Aleatorio

Año escolar de Tendencia tendencia (𝒚𝒚 − 𝒚𝒚
�) − 𝐏𝐏𝐏𝐏𝐏𝐏
posgrado �
𝒚𝒚 − 𝒚𝒚
1 2000 17,270 16,203 1,067 1067
2 2001 16,547 17,008 - 461 234 - 695
3 2002 17,910 17,813 97 -151 248
4 2003 18,530 18,618 - 88 -143 54
5 2004 18,987 19,423 - 436 -329 - 107
6 2005 19,765 20,229 - 464 -396 - 68
7 2006 20,747 21,034 - 287 -453 166
8 2007 21,230 21,839 - 609 -338 - 271
9 2008 22,527 22,644 - 117 -100 - 17
10 2009 23,875 23,449 426 363 62
11 2010 25,036 24,255 781 438 343
12 2011 25,167 25,060 107 398 - 290
13 2012 26,169 25,865 304 206 98
14 2013 26,878 26,670 208 82 126
15 2014 27,210 27,475 - 265 -107 - 159
16 2015 28,018 28,281 - 263 - 263

309 de 357
Tercer semestre
17 2016 29,086
18 2017 29,891
19 2018 30,696
20 2019 31,501
21 2020 32,307

2. Para estimar el ciclo, se recurre al procedimiento de promedio móvil: se copia el

último valor (–107) de la serie Ciclo PM3 en la columna Sin tendencia, debajo del
valor –263, y en ambas columnas se replican las fórmulas ya trabajadas en cada
una de ellas:

Población Sin Ciclo PM3 Aleatorio

310 de 357
Tercer semestre
De igual manera, se replica la fórmula de la columna Aleatorio para los periodos a
pronosticar:

Población Sin Ciclo PM3 Aleatorio

311 de 357
Tercer semestre
Se crea una nueva columna para realizar el pronóstico, sumando los valores de las
columnas Tendencia, Ciclo y Aleatorio:

Población Sin Ciclo Aleatorio

Año escolar de Tendencia tendencia PM3 (𝒚𝒚 − 𝒚𝒚
�) − 𝐏𝐏𝐏𝐏𝐏𝐏 Pronóstico
posgrado �
𝒚𝒚 − 𝒚𝒚
1 2000 17,270 16,203 1,067 1067
2 2001 16,547 17,008 - 461 234 - 695
3 2002 17,910 17,813 97 -151 248
4 2003 18,530 18,618 - 88 -143 54
5 2004 18,987 19,423 - 436 -329 - 107
6 2005 19,765 20,229 - 464 -396 - 68
7 2006 20,747 21,034 - 287 -453 166
8 2007 21,230 21,839 - 609 -338 - 271
9 2008 22,527 22,644 - 117 -100 - 17
10 2009 23,875 23,449 426 363 62
11 2010 25,036 24,255 781 438 343
12 2011 25,167 25,060 107 398 - 290
13 2012 26,169 25,865 304 206 98
14 2013 26,878 26,670 208 82 126
15 2014 27,210 27,475 - 265 -107 - 159
16 2015 28,018 28,281 - 263 - 212 - 51 28,018
17 2016 29,086 - 107 - 194 87 28,979
18 2017 29,891 - 212 - 171 - 41 29,679
19 2018 30,696 - 194 - 192 -2 30,503
20 2019 31,501 - 171 - 185 15 31,331
21 2020 32,307 - 192 - 192

312 de 357
Tercer semestre
Por tanto, la población escolar aumentará de 28 018 a 31 331 alumnos entre 2016 y
2019.

Pronóstico de la población escolar de posgrado

de 2016 a 2019
35000
30000
25000
20000
15000
10000
5000
0
2000 2002 2004 2006 2008 2010 2012 2014 2016 2018 2020

Población escolar de posgrado Pronóstico

7.6. Fluctuaciones irregulares

El último componente de una serie de tiempo es de fluctuaciones irregulares. Este
componente se caracteriza por tener un comportamiento difícil de modelar, debido a
que sus variaciones se deben a causas particulares que normalmente no son
predecibles (por ejemplo, las variaciones en el tráfico a causa de un accidente o una
manifestación).

Una serie irregular se ejemplifica en

la siguiente figura, donde no se
aprecia un patrón:

313 de 357
Tercer semestre
Fuente: elaboración propia.

En el ejemplo de la sección anterior, después de quitar los componentes de

tendencia y ciclicidad, se obtuvo como resultado una serie aleatoria con la cual ya no
se hizo tratamiento adicional.

En el análisis de series de tiempo, luego de quitar los componentes, se busca

trabajar con series estacionarias, las cuales tienen un comportamiento constante,
donde su media y varianza se mantienen a lo largo del tiempo, como lo muestra la
siguiente imagen:

Estacionaria

Fuente: elaboración propia.

Para profundizar en este tema, se sugiere consultar Hanke, J. (2010).

314 de 357
Tercer semestre
7.7. Modelos autorregresivos
de promedios móviles
El empleo de estos modelos se realiza con series estacionarias. Debido a que se
requieren mayores bases de probabilidad y manejo de software estadístico como
STATA, EVIEWS, SAS, entre otros, solamente se mencionarán las principales
características de estos modelos.

Los procesos autorregresivos son aquellos que se modelan en función de sus

observaciones pasadas:

𝒀𝒀𝒕𝒕 = 𝝆𝝆𝟎𝟎 + 𝝆𝝆𝟏𝟏 𝒀𝒀𝒕𝒕−𝟏𝟏 + 𝝆𝝆𝟐𝟐 𝒀𝒀𝒕𝒕−𝟐𝟐 + ⋯ + 𝝆𝝆𝒑𝒑 𝒀𝒀𝒕𝒕−𝒑𝒑 + 𝒁𝒁𝒕𝒕

Donde 𝝆𝝆𝒌𝒌 es la autocorrelación de rezago k.

Supóngase que se tiene la siguiente serie:

t Yt
1 5
2 2
3 2
4 5
5 4

La autocorrelación de rezago 1, 𝝆𝝆𝟏𝟏 , se calcula con los datos de la observación

315 de 357
Tercer semestre
t Yt Yt+1
1 5 2
2 2 2
3 2 5
4 5 4
5 4

En el cálculo no se considera el dato en gris.

Utilizando la fórmula [Link], de Excel, la autocorrelación de rezago 1

que se obtiene es –0.1924. El resultado indica que la observación actual tiene una
correlación baja negativa con una observación anterior.

Otro proceso estacionario es el de medias móviles. En este proceso, la estimación de

la observación actual se encuentra en función de los errores de las observaciones
pasadas:

𝒀𝒀𝒕𝒕 = 𝒁𝒁𝒕𝒕 + 𝜽𝜽𝟏𝟏 𝒁𝒁𝒕𝒕−𝟏𝟏 + 𝜽𝜽𝟐𝟐 𝒁𝒁𝒕𝒕−𝟐𝟐 + ⋯ + 𝜽𝜽𝒒𝒒 𝒁𝒁𝒕𝒕−𝒒𝒒

Un proceso integrado es aquel que puede convertirse en estacionario aplicando

diferencias. En cuanto al orden de integración de un proceso, es el número de
diferencias que debemos aplicarle para convertirlo en estacionario.

Estos modelos combinan procesos autorregresivos y de medias móviles a un

proceso integrado.

Se denota ARIMA (p,d,q), donde p es el orden de la parte autorregresiva; d, el

número de diferencias realizadas al modelo original para convertirla en estacionaria;
y q, el orden de la parte de medias móviles.

316 de 357
Tercer semestre
Se denota ARIMA (p,d,q), p es el orden de la parte autorregresiva;
donde:
d, el número de diferencias realizadas al modelo
original para convertirla en estacionaria;
q, el orden de la parte de medias móviles.

Se ejemplifica este modelo con las ventas registradas en el periodo 1984-2012 de

una empresa (véase la gráfica correspondiente).

Ventas anuales 1984-2012

16,000,000

14,000,000

12,000,000

10,000,000

8,000,000

6,000,000

4,000,000

2,000,000

-
1984

1987

1990

1993

1996

1999

2002

2005

2008

2011

Fuente: elaboración propia.

A partir de 1994, se observa una tendencia creciente en las ventas, la cual se

acentúa desde 2005.

Luego, se calculan las autocorrelaciones de la serie con diferentes rezagos y se

grafica. A este gráfico se le conoce como autocorrelograma.

317 de 357
Tercer semestre
Autocorrelograma de la serie original

Fuente: elaboración propia. Datos procesados en el paquete estadístico R.

La gráfica anterior muestra que la observación actual está influenciada por una o dos
observaciones anteriores. Después de ajustar varios modelos, se eligió un
ARIMA (2, 2, 2), el que mejor se ajusta a la serie.

Para validar la calidad del modelo, se acostumbra realizar el autocorrelograma de los

residuos.

Autocorrelograma de los residuos del modelo ARIMA (2, 2, 2)

318 de 357
Tercer semestre
Fuente: elaboración propia. Datos procesados en el paquete estadístico R.

La gráfica anterior muestra que los residuos tienen un comportamiento de ruido

blanco (aleatorio) porque se hallan dentro de la banda donde se espera caiga el 95%
de las observaciones.

En la siguiente gráfica, se muestra la proyección de 10 observaciones de la serie con

el empleo del modelo ARIMA (2, 2, 2).

Pronóstico de la serie con el modelo ARIMA (2,2,2)

30
Millones

Pronóstico
20
Flujo de efectivo

ARIMA(2,2,2)
15

5 Histórico

-
1984

1987

1990

1993

1996

1999

2002

2005

2008

2011

2014

2017

2020

Fuente: elaboración propia.

319 de 357
Tercer semestre
RESUMEN
Una serie de tiempo es una observación de los valores de una variable durante un
periodo, y consta de cuatro componentes: tendencia, estacionalidad, ciclicidad y un
elemento irregular o aleatorio.

Una serie puede tratarse bajo dos enfoques: el aditivo y multiplicativo. En el primero,
la serie se considera que es resultado de la suma de sus componentes; mientras
que, en el segundo los componentes se expresan como factores que alteran la
tendencia.

Para estimar la tendencia, se utilizaron los métodos de regresión lineal y promedios

móviles. Para trabajar la estacionalidad, se estimaron factores aplicados a la
tendencia. Para manejar la ciclicidad, se construyó una serie cíclica que, al restarse
de la serie original, da como resultado una serie irregular, la cual es deseable que
sea estacionaria para poder aplicar modelos autorregresivos o de medias móviles.

Por último, se expusieron los términos irregular y aleatorio, y se mencionaron las

características del modelo ARIMA, cuya aplicación se ejemplificó en una serie.

320 de 357
Tercer semestre
BIBLIOGRAFÍA

SUGERIDA

Autor Capítulo Páginas

Anderson, S. (2016) 18 785-852
Levin, R. (2010) 15 673-718
Lind, D. (2015) 16 604-647

321 de 357
Tercer semestre
UNIDAD 8

Pruebas estadísticas
no paramétricas

322 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno identificará las pruebas no paramétricas más
utilizadas.

TEMARIO DETALLADO
(8 horas)

8. Pruebas estadísticas no paramétricas

8.1. Diferencias entre los métodos estadísticos paramétricos y no
paramétricos
8.2. La prueba de rachas para aleatoriedad
8.3. La prueba del signo
8.4. La prueba de signos y rangos de Wilcoxon

323 de 357
Tercer semestre
INTRODUCCIÓN
En este material se ha estudiado que, para desarrollar una inferencia estadística, se
debe contar con una población cuya distribución depende de un parámetro del cual
se buscará inferir su valor a partir de una muestra. Asimismo, se han trabajado
distribuciones muestrales que permiten realizar una estimación por intervalo o llevar
a cabo una prueba, y se apoyan, en algunos casos, en supuestos como la
normalidad de la población o que la muestra es considerablemente grande. Sin
embargo, no siempre se puede garantizar que la población se apegue a los
supuestos, por lo que es útil recurrir a pruebas no paramétricas.

Durante la quinta unidad, se utilizó la distribución 𝝌𝝌𝟐𝟐 para realizar pruebas de bondad
de ajuste e inferir sobre el comportamiento de una población. Ahora, esta última
unidad se enfocará a los métodos no paramétricos de rachas, de signo y de signos y
rangos de Wilcoxon.

Esta unidad debe tomarse como un curso introductorio a la estadística no

paramétrica, en tanto brinda las bases para profundizar en el estudio de esta
metodología.

324 de 357
Tercer semestre
8.1. Diferencias entre los métodos
estadísticos paramétricos
y no paramétricos
Hasta este momento, los métodos presentados tanto de estimación como de prueba
de hipótesis son paramétricos, caracterizados por buscar inferir un parámetro de una
población que determina la distribución de la población. Para aplicar la metodología,
en ocasiones se parte de que la población sigue una distribución (frecuentemente es
la normal). Sin embargo, no siempre es posible conocer o garantizar los supuestos
de una distribución, por lo que se recurren a otras alternativas, las cuales no realizan
restricciones acerca de la distribución de la población (a estas metodologías se les
conoce como no paramétricas).

En estadística no paramétrica, se trabaja

generalmente con datos cualitativos; a
diferencia de los métodos paramétricos,
donde se emplean datos cuantitativos.
Cuando se manejan variables
cuantitativas en estadística no
paramétrica, la práctica es
categorizarlas y realizar las pruebas
correspondientes.

325 de 357
Tercer semestre
Ventajas de No asumen una distribución asociada a la población.
los métodos
no
paramétricos Su planteamiento es sencillo; y su cálculo, fácil.

En ocasiones, los datos no requieren ser ordenados o

clasificados.
Se pueden usar en variables cualitativas.

Desventajas Ignoran información como resultado de utilizar ordenamientos

de los en vez de los valores cuantitativos.
métodos no
paramétricos

Los métodos no paramétricos son menos potentes que los

paramétricos.

326 de 357
Tercer semestre
8.2. La prueba de rachas
para aleatoriedad
La primera prueba no paramétrica que se expone es la de rachas, utilizada para
inferir si una muestra es aleatoria. Para aplicarla, normalmente se consideran dos
resultados, como el género de una persona, el resultado del lanzamiento de una
moneda, los valores por encima o debajo de la mediana, entre otros. Se enlistan los
elementos de la muestra de acuerdo con el orden de aparición y se cuentan las
rachas. Una racha es una secuencia de valores con una característica común
precedida y seguida por valores que no presentan esa característica.

Para ilustrar una racha, supóngase que los resultados asociados a una muestra son
dos: ganar (G) y perder (P). La información de una muestra de siete individuos se
enlista según el orden de aparición:

GGPGPPG
R 1 R2 R3 R4 R5

En esta muestra, hay cinco rachas: la primera la forman los

primeros dos individuos; la segunda y tercera, el tercer y
cuarto individuos; la cuarta, el quinto y sexto individuos;
y la quinta, el último individuo.

El número de rachas es un indicador de la aleatoriedad de la muestra. Si existen

pocas rachas o son excesivas, entonces se está enfrentando a una muestra que no
es aleatoria.

327 de 357
Tercer semestre
Para ilustrar lo anterior, supóngase que se hacen 10 lanzamientos de una moneda,
cuyos resultados son águila (A) y sol (S), y se observan los siguientes resultados:

AAAAASSSSS

La secuencia anterior sugiere alguna carencia de independencia en los eventos.

Una secuencia como la siguiente presenta el mismo número de rachas que de

lanzamientos, lo que hace pensar que los lanzamientos no se llevaron a cabo en
condiciones normales:

ASASASASAS

Prueba de rachas

Planteamiento de la prueba de rachas:

𝑯𝑯𝒐𝒐 : 𝑳𝑳𝑳𝑳 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒆𝒆𝒆𝒆 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂

𝑯𝑯𝟏𝟏 : 𝑳𝑳𝑳𝑳 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒏𝒏𝒏𝒏 𝒆𝒆𝒆𝒆 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂

Esta prueba se centra en el número de rachas 𝑹𝑹, cuya media es:

𝝁𝝁𝑹𝑹= 𝟐𝟐𝒏𝒏𝟏𝟏𝒏𝒏𝟐𝟐 +𝟏𝟏
𝒏𝒏𝟏𝟏 +𝒏𝒏𝟐𝟐

Y su desviación es:

𝟐𝟐𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 (𝟐𝟐𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 − 𝒏𝒏𝟏𝟏 −𝒏𝒏𝟐𝟐 )

𝝈𝝈𝜽𝜽 = �
(𝒏𝒏𝟏𝟏 + 𝒏𝒏𝟐𝟐 )𝟐𝟐 (𝒏𝒏𝟏𝟏 +𝒏𝒏𝟐𝟐 − 𝟏𝟏)

Donde:
n1 = número de elementos con el primer resultado
n2 = número de elementos con el segundo resultado

328 de 357
Tercer semestre
El estadístico de prueba es:

𝑹𝑹 − 𝝁𝝁𝑹𝑹
𝒁𝒁 =
𝝈𝝈𝑹𝑹

•
Donde:

𝑹𝑹 = número de rachas
𝝁𝝁𝑹𝑹 = media del número de rachas
𝝈𝝈𝑹𝑹 = desviación del número de rachas

El estadístico de prueba se acerca a una distribución normal si n1 o n2 es mayor a 20.

En caso de trabajar con muestras menores a 20, no es necesario calcular la media y
desviación de R; es suficiente consultar si R se halla en zona de aceptación o
rechazo en la tabla de valores críticos de R, en la prueba de rachas incluida en el
apéndice. 12

Para realizar esta prueba, conviene dar los siguientes pasos:

1. Enlistar los elementos de la muestra

2. Calcular n1 y n2

3. Calcular R

4. Realizar la prueba o consultar la tabla en caso

de trabajar con n1 y n2 < 20.

12 Tables for testing randomness of grouping in a sequence of alternatives. Annals of Mathematics

Statistics. 4. 1943. pp. 83-86.

329 de 357
Tercer semestre
A continuación, se plantean ejemplos.

Ejemplo 1

Con la intención de justificar una nueva política de

puntualidad en una PYME, se analizó una muestra de 20
días, donde se registra si todo el personal llegó a tiempo (P)
o al menos un elemento de la organización llegó tarde (T).

La muestra deja los siguientes resultados:

Día Resultado Día Resultado

1 P 11 P
2 P 12 P
3 P 13 T
4 P 14 T
5 T 15 P
6 P 16 P
7 T 17 P
8 T 18 P
9 T 19 T
10 T 20 P

Un empleado está en desacuerdo con la política que se desea implementar y dice

que la muestra no fue extraída al azar. Con un nivel de significancia de 0.05, ¿se
apoya lo dicho por este empleado?

Solución:

Este problema requiere de la realización de una prueba de rachas para validar la

aleatoriedad de la muestra. Dando los pasos recomendados, la prueba se hace de la
siguiente manera.

330 de 357
Tercer semestre
1. Determinar el número de veces que se registra el total de días en que todos
los empleados llegaron puntuales (P) y el número de días en que al menos un
empleado llegó tarde (T). Estos datos representarán el tamaño de las muestras
P = n1 y T = n2:
P = n1 = 12
T = n2 = 8

2. Calcular el número de rachas (R)

Rachas = = 9
Como n1 y n2 son menores a 20, es suficiente consultar la tabla de valores
críticos de R en la prueba de rachas.

3. Realizar la prueba
Al consultar la tabla, se obtiene que la prueba se rechaza si R≤ 6 o R≥ 16.
Como R = 9, no hay elementos para rechazar la aleatoriedad de la muestra.

331 de 357
Tercer semestre
Ejemplo 2

Un médico clasifica a sus pacientes según si son

recomendados por un seguro (S) o son de procedencia
particular (P). Una muestra de pacientes atendidos por
día se muestra a continuación:

Lunes Martes Miércoles Jueves Viernes

S S P S P
S S P S S
S S P S P
P P S P S
P S S P S
S S P P S
S P P P P
P P P S P
S P P S P
S S P S S
P S S S S
P S S P P
P P S P P
P P S S P

Con la intención de negociar incentivos con las aseguradoras, el médico envía esta
información. El área técnica encargada de evaluar si la información que le manda el
médico es válida, realiza una prueba de rachas. Con una significancia del 5% la
muestra es válida.

332 de 357
Tercer semestre
Solución:

1. Determinar n1 y n2
n1 = S = 35
n2 = P = 35

2. Determinar el número de rachas

R = 26

333 de 357
Tercer semestre
b) Calcular la desviación estándar:

3. Realizar la prueba 𝟐𝟐𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 (𝟐𝟐𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 − 𝒏𝒏𝟏𝟏 −𝒏𝒏𝟐𝟐 )

a) Calcular la media: 𝝈𝝈𝑹𝑹 =
(𝒏𝒏𝟏𝟏 + 𝒏𝒏𝟐𝟐 )𝟐𝟐 (𝒏𝒏𝟏𝟏 +𝒏𝒏𝟐𝟐 −𝟏𝟏)
𝝁𝝁 𝟐𝟐𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐(𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟑𝟑𝟑𝟑 − 𝟑𝟑𝟑𝟑)
𝑹𝑹= +𝟏𝟏 𝝈𝝈𝑹𝑹 =
𝒏𝒏𝟏𝟏 +𝒏𝒏𝟐𝟐
𝝁𝝁 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 (𝟑𝟑𝟑𝟑 + 𝟑𝟑𝟑𝟑)𝟐𝟐 (𝟑𝟑𝟑𝟑 + 𝟑𝟑𝟑𝟑 − 𝟏𝟏)
𝑹𝑹= +𝟏𝟏
𝟑𝟑𝟑𝟑+𝟑𝟑𝟑𝟑 𝟐𝟐, 𝟒𝟒𝟒𝟒𝟒𝟒(𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑)
𝝁𝝁 𝟐𝟐,𝟒𝟒𝟒𝟒𝟒𝟒 𝝈𝝈𝑹𝑹 =
𝑹𝑹= +𝟏𝟏 (𝟕𝟕𝟕𝟕)𝟐𝟐 (𝟔𝟔𝟔𝟔)
𝟕𝟕𝟕𝟕
𝝁𝝁𝑹𝑹= 𝟑𝟑𝟑𝟑+𝟏𝟏
𝝁𝝁𝑹𝑹= 𝟑𝟑𝟑𝟑 𝟐𝟐, 𝟒𝟒𝟒𝟒𝟒𝟒(𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑)
𝝈𝝈𝑹𝑹 =
𝟒𝟒, 𝟗𝟗𝟗𝟗𝟗𝟗 (𝟔𝟔𝟔𝟔)
𝟓𝟓, 𝟖𝟖𝟖𝟖𝟖𝟖, 𝟎𝟎𝟎𝟎𝟎𝟎
𝝈𝝈𝑹𝑹 =
𝟑𝟑𝟑𝟑𝟑𝟑, 𝟏𝟏𝟏𝟏𝟏𝟏
𝝈𝝈𝑹𝑹 = 𝟏𝟏𝟏𝟏. 𝟐𝟐𝟐𝟐
𝝈𝝈𝑹𝑹 = 𝟒𝟒. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏

Calculamos el estadístico de prueba a través

de una distribución normal:
[Link](0.05/2) = –1.9599
c) Calcular el estadístico de
prueba:
𝑹𝑹 − 𝝁𝝁𝑹𝑹
𝒁𝒁 =
𝝈𝝈𝑹𝑹
𝟐𝟐𝟐𝟐 − 𝟑𝟑𝟑𝟑
𝒁𝒁 =
𝟒𝟒. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
−𝟏𝟏𝟏𝟏
Zona de No Rechazo 𝒁𝒁 =
𝟒𝟒. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
Zona 𝒁𝒁 = −𝟐𝟐. 𝟒𝟒𝟒𝟒𝟒𝟒
Rechazo
PC =-1.96
EP=-2.48

Como el estadístico de prueba cae en zona

de rechazo, no existe evidencia estadística
para apoyar la aleatoriedad de la muestra.

334 de 357
Tercer semestre
8.3. La prueba del signo
Esta prueba recibe el nombre “del signo” porque se basa en la dirección de la
diferencia entre dos mediciones, expresada con un signo “+” o “–”, más que en los
datos de donde proceden. Normalmente, se emplea para hacer pruebas relacionadas
con la mediana de una población o comparar muestras apareadas.

La esencia de esta prueba es apoyar que la proporción de diferencias positivas es la

misma que las negativas (p = 0.5). Obsérvese que en esta prueba hay dos resultados
posibles: “+” o “– “, hay n observaciones independientes y una probabilidad p
constante en cada ensayo, por lo que esta prueba está asociada a una distribución
binomial cuyos parámetros son el número de observaciones (n) y la probabilidad de
éxito (p). Como es sabido, si nˑp > 5 y n⋅(1–p) > 5, la distribución binomial puede
aproximarse a una normal.

Para este caso, el estadístico de prueba es:

𝑹𝑹+ − 𝟎𝟎. 𝟓𝟓𝟓𝟓

𝒁𝒁 =
𝟎𝟎. 𝟓𝟓 𝒏𝒏

• Donde:

Z = estadístico de prueba
R+ = número de datos positivos
n = tamaño de la muestra

Para muestras pequeñas, se utiliza la distribución binomial.

A continuación, se presentan algunos ejemplos.

335 de 357
Tercer semestre
Ejemplo 1

El número de horas extras trabajadas al mes por una muestra de 20 empleados es la

siguiente:
Empleado Horas extras
1 22
2 27
3 25
4 12
5 14
6 11
7 16
8 24
9 13
10 20
11 12
12 13
13 21
14 17
15 18
16 11
17 27
18 18
19 14
20 17

Con un nivel de significancia del 5%, ¿se apoya la hipótesis de que la mediana es de
17 horas?

Solución

La prueba se plantea de la siguiente manera:

𝑯𝑯𝟎𝟎 : 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 = 𝟏𝟏𝟏𝟏

𝑯𝑯𝟎𝟎 : 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 ≠ 𝟏𝟏𝟏𝟏

La prueba es de dos extremos.

A cada valor de la muestra se resta el valor de la mediana bajo la hipótesis nula y se

anota el signo de la diferencia:

336 de 357
Tercer semestre
Diferencia el dato
Horas
Empleado Mediana y la mediana Signo
extras
Cálculo Resultado
1 22 17 22-17 5 +
2 27 27-17 10 +
3 25 25-17 8 +
4 12 12-17 -5 -
5 14 14-17 -3 -
6 11 11-17 -6 -
7 16 16-17 -1 -
8 24 24-17 7 +
9 13 13-17 -4 -
10 20 20-17 3 +
11 12 12-17 -5 -
12 13 13-17 -4 -
13 21 21-17 4 +
14 17 17-17 0 =
15 18 18-17 1 +
16 11 11-17 -6 -
17 27 27-17 10 +
18 18 18-17 1 +
19 14 14-17 -3 -
20 17 17-17 0 =

El siguiente paso es contar el número de signos positivos, negativos e iguales:

Signo Frecuencia
+ 9
- 9
- 2
Total 20

Como existen dos signos “=”, se restan al total de la muestra, por lo que disminuye
su valor a 18 elementos:

n = 20 – 2 = 18

Como 18⋅0.5 = 9, se utilizará una aproximación normal.

337 de 357
Tercer semestre
Sustituyendo los valores en el estadístico de prueba, se obtiene lo siguiente:

R+ = número de signos positivos en la muestra = 𝟗𝟗

n = 18

𝑹𝑹+ − 𝟎𝟎. 𝟓𝟓𝟓𝟓

𝒁𝒁 =
𝟎𝟎. 𝟓𝟓√𝒏𝒏
𝟗𝟗 − 𝟎𝟎. 𝟓𝟓 ∙ 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟓𝟓√𝟏𝟏𝟏𝟏
𝟗𝟗 − 𝟗𝟗
𝒁𝒁 =
𝟐𝟐. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝟎𝟎
𝒁𝒁 =
𝟐𝟐. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝒁𝒁 = 𝟎𝟎

Por el planteamiento, se conoce que la prueba es de dos extremos con un nivel de

significancia de α = 5% = 0.05. Para determinar los puntos críticos, se utiliza la
fórmula de Excel:

[Link](1-α/2)
[Link](1-0.05/2) = 1.9599

Las zonas de rechazo son en valores menores o iguales a –1.96 y mayores o iguales
a 1.96. El valor del estadístico de prueba es 0, por lo que no existe evidencia para
rechazar la hipótesis nula.

338 de 357
Tercer semestre
No se rechaza Ho

Zona de
No Rechazo

Zona Zona
Rechazo Rechazo
-1.96 +1.96

EP=0

En el siguiente ejemplo, se contrastarán los resultados de dos muestras.

Ejemplo 2

Una panadería quiere introducir un nuevo tipo de pan blanco,

para ello hornea dos panes: uno de avena y otro de
linaza. Dan a probar los panes a 10 clientes para
conocer su nivel de aceptación y decidir qué sabor
deben introducir en su producción, y se les pide
calificar el sabor de cada pan en una escala del 1 al 10: 1
significa que el sabor es desagradable; y 10, muy agradable. Los resultados del
ejercicio se muestran a continuación.
Cliente Pan con Pan con
avena linaza
1 5 9
2 8 8
3 10 8
4 9 10
5 9 8
6 5 7
7 5 10
8 8 9
9 6 9

339 de 357
Tercer semestre
10 5 10

Con un nivel de significancia de 5%, ¿se apoya que los clientes prefieren más el pan
de linaza que de avena?

Solución

El primer paso consiste en calcular las diferencias entre las calificaciones que los
clientes dieron a los panes. Se asigna “+” cuando la calificación del pan de avena
supere al de linaza, y “–” en caso contrario. Cuando la calificación es la misma, se
asigna “=”. Las diferencias se muestran a continuación.

Cliente Pan con Pan con Diferencia Signo

avena linaza Cálculo Resultado
1 5 9 5-9 -4 -
2 8 7 8-7 1 +
3 10 8 10-8 2 +
4 9 10 9-10 -1 -
5 9 8 9-8 1 +
6 5 7 5-7 -2 -
7 5 10 5-10 -5 -
8 8 9 8-9 -1 -
9 6 9 6-9 -3 -
10 5 10 5-10 -5 -

El conteo de los signos es el siguiente:

Signo Frecuencia
+ 3
- 7
- 0
Total 10

La prueba queda planteada de la siguiente manera:

𝑯𝑯𝟎𝟎 : 𝒑𝒑 = 𝟎𝟎. 𝟓𝟓

340 de 357
Tercer semestre
𝑯𝑯𝟏𝟏 : 𝒑𝒑 > 𝟎𝟎. 𝟓𝟓

La prueba es de un extremo (derecho).

Como nˑp = 10 ⋅0.5 = 5, se empleará una distribución normal.

Por tanto, los datos que sustituiremos en la fórmula del estadístico de prueba serán
los siguientes:

𝑹𝑹− = número de signos negativos = 7

n = 10
𝑹𝑹− − 𝟎𝟎. 𝟓𝟓𝟓𝟓
𝒁𝒁 =
𝟎𝟎. 𝟓𝟓√𝒏𝒏
𝟕𝟕 − 𝟎𝟎. 𝟓𝟓 ∙ 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟓𝟓√𝟏𝟏𝟏𝟏
𝟕𝟕 − 𝟓𝟓
𝒁𝒁 =
𝟏𝟏. 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓
𝟐𝟐
𝒁𝒁 = 𝒁𝒁 =
𝟏𝟏. 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓
𝒁𝒁 = 𝟏𝟏. 𝟐𝟐𝟐𝟐

Por el planteamiento de la prueba, se conoce que es de un extremo con un nivel de

significancia de α = 5% = 0.05. Para determinar el punto crítico, se utiliza la fórmula
de Excel:

[Link](1-α)
[Link](1-0.05) = 1.64

Las zonas de rechazo son en valores mayores o iguales a 1.64. Como el valor del
estadístico de prueba es 1.26, se concluye que no existe evidencia para rechazar la
hipótesis nula: no hay evidencia para afirmar que los clientes prefieran más el pan de
linaza que el de avena.

341 de 357
Tercer semestre
No se rechaza Ho

Zona de
No Rechazo

Zona Zona
Rechazo Rechazo
-1.64 +1.64

EP=1.26

8.4. La prueba de signos

y rangos de Wilcoxon

En la sección anterior, se mostró la prueba de los signos, que se basa en la dirección

de las diferencias de las mediciones, más que en su magnitud. Existe una prueba
con mayor potencia, la cual, además de considerar la dirección de las desviaciones,
toma en cuenta su magnitud, es la prueba de rangos asignados de Wilcoxon.

La prueba de Wilcoxon parte de las diferencias apareadas de puntuaciones entre las

variables X y Y. Después, estas variables son ordenadas de manera ascendente
conforme a su valor absoluto, y se les asigna un rango, al cual se le da el signo que
corresponde a la diferencia. En caso de que se presenten diferencias con valor cero,
se eliminan del análisis; y si existen diferencias con la misma magnitud, se les
asignará un rango promedio.

342 de 357
Tercer semestre
La hipótesis nula es que las variables X y Y son equivalentes, con la misma mediana
y la misma distribución continua. Es decir, si H0 es cierta, se esperaría observar el
mismo número de diferencias en favor de X que dé Y, o lo que es equivalente, que la
suma de rangos positivos sea igual a la de negativos.

Para desarrollar esta prueba, se definen dos estadísticos:

T+ = suma de los rangos de las diferencias positivas

T- = suma de los rangos de las diferencias negativas

El estadístico en que se enfocará la prueba es en T+, el cual tiene como media:

𝒏𝒏(𝒏𝒏 + 𝟏𝟏)
𝝁𝝁𝑻𝑻+ =
𝟒𝟒

Y desviación estándar:

𝒏𝒏(𝒏𝒏 + 𝟏𝟏) + (𝟐𝟐𝟐𝟐 + 𝟏𝟏)

𝝈𝝈𝑻𝑻+ = �
𝟐𝟐𝟐𝟐

Para valores de n mayores o iguales a 10, tiene una distribución aproximadamente

normal.

A continuación, se muestra un ejemplo del uso de esta prueba.

343 de 357
Tercer semestre
Ejemplo

Una compañía farmacéutica lanzó un medicamento para el estrés. Desea medir si el

nivel de aceptación ha cambiado en los médicos que trabajan en el hospital Alta
Tensión después de haber capacitado a la fuerza de ventas. Para ello selecciona una
muestra de 15 médicos, de los que compara los resultados de dos reportes, uno
anterior y otro posterior a la capacitación; en el reporte, cada médico asigna una
calificación del 1 al 5 para evaluar al producto. En la siguiente tabla, se muestran las
calificaciones de los médicos hacia el medicamento antes y después de la
capacitación.

Calificación
del producto
Médico Antes Después
1 5 3
2 5 5
3 2 2
4 4 4
5 5 1
6 4 3
7 5 3
8 2 3
9 3 2
10 1 3
11 4 1
12 4 5
13 4 5
14 5 2
15 4 2

Con un nivel de significancia del 5%, ¿se podría apoyar que la capacitación a la
fuerza de ventas cambió la aceptación del producto?
Solución

344 de 357
Tercer semestre
A continuación, se muestra cada paso para realizar la prueba.

Calcular la diferencia de las calificaciones:

Calificación
del producto
Médico Antes Después Diferencia
1 5 3 2
2 5 5 0
3 2 2 0
4 4 4 0
5 2 2 0
6 4 3 1
7 5 3 2
8 2 3 -1
9 3 2 1
10 1 3 -2
11 4 1 3
12 4 5 -1
13 4 5 -1
14 5 2 3
15 4 2 2

Calcular el valor absoluto de las diferencias:

Calificación Valor
del producto absoluto
Médico Antes Después Diferencia Diferencia
1 5 3 2 2
2 5 5 0 0
3 2 2 0 0
4 4 4 0 0
5 5 1 4 4
6 4 3 1 1
7 5 3 2 2
8 2 3 -1 1
9 3 2 1 1
10 1 3 -2 2
11 4 1 3 3
12 4 5 -1 1

345 de 357
Tercer semestre
13 4 5 -1 1
14 5 2 3 3
15 4 2 2 2

Eliminar las diferencias que son cero:

Calificación Valor
del producto absoluto
Médico Antes Después Diferencia diferencia Rango
1 5 3 2 2
2 5 5 0 0 Se
3 2 2 0 0 eliminan
4 4 4 0 0
5 5 1 4 4
6 4 3 1 1
7 5 3 2 2
8 2 3 -1 1
9 3 2 1 1
10 1 3 -2 2
11 4 1 3 3
12 4 5 -1 1
13 4 5 -1 1
14 5 2 3 3
15 4 2 2 2

n = 15

Se eliminaron tres datos:

n = 15 – 3 = 12

Se determina el rango, es decir, se asigna a cada diferencia un número de menor a

mayor. En caso de que se repita el valor de las diferencias, se calcula el promedio de
los rangos que les corresponde; dicho resultado será el rango asignado a cada una
de las diferencias involucradas en el cálculo de ese rango.

346 de 357
Tercer semestre
Después, se calcula el rango promedio para las diferencias de valor 1:

Calificación Valor
del producto absoluto Promedio de Rango
Médico Antes Después Diferencia diferencia Rango los rangos definitivo
1 5 3 2 2 7

5 5 1 12
4 4
𝟏𝟏 + 𝟐𝟐 + 𝟑𝟑 + 𝟒𝟒 + 𝟓𝟓
6 4 3
1 1 1 𝟓𝟓 3
7 5 3 2 2 8
8 2 3 -1 1 2 𝟏𝟏𝟏𝟏 3
9 3 2 1 1 3 𝟓𝟓 3
10 1 3 -2 2 6
11 4 1 3 3 10
12 4 5 -1 1 4 3
13 4 5 -1 1 5 3
14 5 2 3 3 11
15 4 2 2 2 9

El rango para las diferencias de valor 2 se muestra a continuación:

Calificación Valor
del producto absoluto Promedio de Rango
Médico Antes Después Diferencia diferencia Rango los rangos definitivo
𝟔𝟔 + 𝟕𝟕 + 𝟖𝟖 + 𝟗𝟗
1 5 3
2 2 6 𝟒𝟒 7.5
5 5 1 4 4 12
6 4 3 1 1 1 3
7 5 3 2 2 7 7.5
8 2 3 -1 1 2 3
9 3 2 1 1 3 3
𝟑𝟑𝟑𝟑
10 1 3 = 𝟕𝟕. 𝟓𝟓
-2 2 8 𝟒𝟒 7.5
11 4 1 3 3 10
12 4 5 -1 1 4 3
13 4 5 -1 1 5 3
14 5 2 3 3 11
15 4 2 2 2 9 7.5

347 de 357
Tercer semestre
El rango promedio para las diferencias de valor 3 es el siguiente:
Calificación Valor
del producto absoluto Promedio de Rango
Médico Antes Después Diferencia diferencia Rango los rangos definitivo
1 5 3 2 2 6 7.5
5 5 1 4 4 12
6 4 3 1 1 1 3
7 5 3 2 2 7 7.5
8 2 3 -1 1 2 3
9 3 2 1 1 3 3
10 1 3 -2 2 8 7.5
𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏
11 4 1
3 3 10 𝟐𝟐 10.5
12 4 5 -1 1 4 3
13 4 5 -1 1 5 3
14 5 2 3 3 11 10.5
15 4 2 2 2 9 7.5

Para el valor máximo, como es único, su rango se mantiene:

Calificación Valor
del producto absoluto Promedio de Rango
Médico Antes Después Diferencia diferencia Rango los rangos definitivo
1 5 3 2 2 6 7.5
5 5 1 4 4 12 12
6 4 3 1 1 1 3
7 5 3 2 2 7 7.5
8 2 3 -1 1 2 3
9 3 2 1 1 3 3
10 1 3 -2 2 8 7.5
11 4 1 3 3 10 10.5
12 4 5 -1 1 4 3
13 4 5 -1 1 5 3
14 5 2 3 3 11 10.5
15 4 2 2 2 9 7.5

348 de 357
Tercer semestre
A cada rango se le pone el signo de su diferencia original:

Calificación Valor Rango

del producto absoluto definitivo
signo
Médico Antes Después Diferencia diferencia Rango original
1 5 3 2 2 6 7.5
2 5 5 0 0
Se
3 2 2 0 0
eliminan
4 4 4 0 0
5 5 1 4 4 12 12
6 4 3 1 1 1 3
7 5 3 2 2 7 7.5
8 2 3 -1 1 2 -3
9 3 2 1 1 3 3
10 1 3 -2 2 8 -7.5
11 4 1 3 3 10 10.5
12 4 5 -1 1 4 -3
13 4 5 -1 1 5 -3
14 5 2 3 3 11 10.5
15 4 2 2 2 9 7.5
Se suman los rangos positivos:
Valor Rango
Calificación
absoluto definitivo Suma
del producto
signo rangos
Médico Antes Después Diferencia diferencia Rango original positivos
1 5 3 2 2 6 7.5 7.5
2 5 5 0 0
Se
3 2 2 0 0
eliminan
4 4 4 0 0
5 5 1 4 4 12 12 12
6 4 3 1 1 1 3 3
7 5 3 2 2 7 7.5 7.5
8 2 3 -1 1 2 -3
9 3 2 1 1 3 3 3
10 1 3 -2 2 8 -7.5
11 4 1 3 3 10 10.5 10.5
12 4 5 -1 1 4 -3
13 4 5 -1 1 5 -3
14 5 2 3 3 11 10.5 10.5
15 4 2 2 2 9 7.5 7.5

349 de 357
Tercer semestre
T+ = 61.5

Entonces, la prueba se define de la siguiente manera:

𝑯𝑯𝟎𝟎 : 𝑵𝑵𝑵𝑵 𝒉𝒉𝒉𝒉𝒉𝒉 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆 𝒍𝒍𝒍𝒍 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒚𝒚 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
𝑯𝑯𝟏𝟏 : 𝑯𝑯𝑯𝑯𝑯𝑯 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆 𝒍𝒍𝒍𝒍 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒚𝒚 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄

La prueba es de dos colas.

Se realiza la prueba.

Se calculan el promedio y la desviación.

Donde n = 13
𝒏𝒏(𝒏𝒏 + 𝟏𝟏)
𝝁𝝁𝒓𝒓+ =
𝟒𝟒
𝟏𝟏𝟏𝟏(𝟏𝟏𝟏𝟏 + 𝟏𝟏)
𝝁𝝁𝒓𝒓+ =
𝟒𝟒
𝟏𝟏𝟏𝟏(𝟏𝟏𝟏𝟏)
𝝁𝝁𝒓𝒓+ =
𝟒𝟒
𝟏𝟏𝟏𝟏𝟏𝟏
𝝁𝝁𝒓𝒓+ =
𝟒𝟒
𝝁𝝁𝒓𝒓+ = 𝟑𝟑𝟑𝟑

𝒏𝒏(𝒏𝒏 + 𝟏𝟏) + (𝟐𝟐𝟐𝟐 + 𝟏𝟏)

𝝈𝝈𝒓𝒓+ = �
𝟐𝟐𝟐𝟐

𝟏𝟏𝟏𝟏(𝟏𝟏𝟏𝟏 + 𝟏𝟏) + (𝟐𝟐 ∙ 𝟏𝟏𝟏𝟏 + 𝟏𝟏)

𝝈𝝈𝒓𝒓+ = �
𝟐𝟐𝟐𝟐

𝟏𝟏𝟏𝟏(𝟏𝟏𝟏𝟏) + (𝟐𝟐𝟐𝟐 + 𝟏𝟏)

𝝈𝝈𝒓𝒓+ = �
𝟐𝟐𝟐𝟐

350 de 357
Tercer semestre
𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟐𝟐𝟐𝟐
𝝈𝝈𝒓𝒓+ = �
𝟐𝟐𝟐𝟐

𝟏𝟏𝟏𝟏𝟏𝟏
𝝈𝝈𝒓𝒓+ = �
𝟐𝟐𝟐𝟐

𝝈𝝈𝒓𝒓+ = √𝟕𝟕. 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓

𝝈𝝈𝒓𝒓+ = 𝟐𝟐. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕

Calcular el estadístico de prueba:

𝑻𝑻+ − 𝝁𝝁𝒓𝒓+
𝒛𝒛 =
𝝈𝝈𝒓𝒓+
𝟔𝟔𝟔𝟔. 𝟓𝟓 − 𝟑𝟑𝟑𝟑
𝒛𝒛 =
𝟐𝟐. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕
𝟐𝟐𝟐𝟐. 𝟓𝟓
𝒛𝒛 =
𝟐𝟐. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕
𝒛𝒛 = 𝟖𝟖. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏

Como el estadístico de prueba es notablemente mayor a los puntos críticos (±1.96),

no hay evidencia estadística para apoyar la hipótesis nula de que no hay diferencia
en la calificación antes y después de la capacitación.

351 de 357
Tercer semestre
RESUMEN
En esta unidad, se presentó un primer acercamiento a la realización de pruebas con
el empleo de métodos no paramétricos. Estos métodos tienen la ventaja de no
asumir que la población sigue una distribución; sus pruebas son sencillas y
entendibles, aunque no tienen la misma potencia que las pruebas paramétricas.

Se expusieron tres pruebas:

Racha
Signos
La de rachas,
adecuada para probar La de signos, que Wilcoxon
la aleatoriedad de una permite realizar
muestra. inferencias acerca de La de Wilcoxon, que,
la mediana de una además de considerar
población la dirección de las
considerando diferencias, también
únicamente la toma en cuenta su
dirección de las magnitud.
diferencias de las
mediciones.

352 de 357
Tercer semestre
BIBLIOGRAFÍA

SUGERIDA

Autor Capítulo Páginas

Anderson, S. (2016) 19 855-904
Levin, R. (2010) 14 621-663
Lind, D. (2015) 18 680-719

353 de 357
Tercer semestre
APÉNDICE

Apéndice 1. Valores críticos de R en la prueba de rachas

Los diferentes valores críticos de R están proporcionados en las tablas para valores n1 y n2 menores o iguales a 20. Para la prueba de rachas de
una muestra, cualquier valor observado de R que sea menor o igual al valor más pequeño, o que sea mayor o igual al valor más grande en un par, es
significativo en el nivel α = 0.05.

n2
n1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 2 2 2 2 2 2 2 2 2
- - - - - - - - -
3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3
- - - - - - - - - - - - - - -
4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4
9 9 - - - - - - - - - - - - - -
5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5
9 10 10 11 11 - - - - - - - - - - - -
6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6
- 9 10 11 12 12 13 13 13 13 - - - - - - - -
7 2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6
- - 11 12 13 13 14 14 14 14 15 15 15 - - - - -
8 2 3 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 7
- - 11 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17
9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8
- - - 13 14 14 15 16 16 16 17 17 18 18 18 18 18 18
10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9
- - - 13 14 15 16 16 17 17 18 18 18 19 19 19 20 20
11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9
- - - 13 14 15 16 17 17 18 19 19 19 20 20 20 21 21
12 2 2 3 4 4 5 6 6 7 7 7 8 8 8 9 9 9 10 10
- - - - 13 14 16 16 17 18 19 19 20 20 21 21 21 22 22
13 2 2 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 10
- - - - - 15 16 17 18 19 19 20 20 21 21 22 22 23 23
14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11
- - - - - 15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12
- - - - - 15 16 18 18 19 20 21 22 22 23 23 24 24 25
16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12
- - - - - - 17 18 19 20 21 21 22 23 23 24 25 25 25
17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13
- - - - - - 17 18 19 20 21 22 23 23 24 25 25 26 26
18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13
- - - - - - 17 18 19 20 21 22 23 24 25 25 26 26 27
19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13
- - - - - - 17 18 20 21 22 23 23 24 25 26 26 27 27
20 2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 14
- - - - - - 17 18 20 21 22 23 24 25 25 26 27 27 28
Fuente: Siegel (1995, p. 369).

354 de 357
Tercer semestre
REFERENCIA BIBLIOGRÁFICA
BIBLIOGRAFÍA BÁSICA
Anderson, D. R. (2016). Estadística para negocios y economía. (12a ed.), México:
Cengage Leraning.
Levin R. y Rubin D. (2010). Estadística para administración y economía (7.ª ed.).
México: Pearson.
Levine, D. M. (2014). Estadística para administración. (6 ed.), México: Pearson.
Lind, A. D. (2015). Estadística aplicada a los negocios y a la economía. (16a ed.),
México: McGraw-Hill.
Mendenhall, W. (2015). Introducción a la probabilidad y estadística. (14a ed.),
México: Cengage Learning.
Rodríguez, F. J. (2014). Estadística aplicada II: estadística en administración para la
toma de decisiones. México: Grupo Editorial Patria.
Rodríguez, F. J. (2014). Estadística para administración. México: Grupo Editorial
Patria.
Triola, M. F. (2013). Estadística: actualización tecnológica. (11a ed.), México:
Pearson Educación.

BIBLIOGRAFÍA COMPLEMENTARIA
Alvarado, V. V. (2014). Probabilidad y estadística. México: Grupo Editorial Patria.
Domínguez, D. J. (2015). Estadística para administración y economía. México:
Alfaomega.
Fontana, D. B. (2014). Probabilidad y estadística. México: UNAM Facultad de
Ingeniería.

355 de 357
Tercer semestre
Funelabrada, D. T. (2014). Probabilidad y estadística. (4a ed.), México: McGraw-Hill.
Garza, O. B. (2014). Estadística y probabilidad. México: Pearson Educación.
Newbold, P. (2013). Estadística para administración y economía. (8a ed.), Madrid:
Pearson.
Spiegel, M. R. (2013). Probabilidad y estadística. (4a ed.), New York: McGraw-Hill.

356 de 357
Tercer semestre
357 de 357
Tercer semestre

También podría gustarte

B
Aún no hay calificaciones
B
348 páginas
Unam Estadistica Inferencial Apunte Electronico
75% (4)
Unam Estadistica Inferencial Apunte Electronico
348 páginas
Estadistica Inferencial
100% (1)
Estadistica Inferencial
348 páginas
Estadística 2 (2012)
100% (1)
Estadística 2 (2012)
364 páginas
Estadistica Inferencial PDF
100% (2)
Estadistica Inferencial PDF
328 páginas
Temas de Muestreos PDF
Aún no hay calificaciones
Temas de Muestreos PDF
187 páginas
Estadistica Desbloqueado II
Aún no hay calificaciones
Estadistica Desbloqueado II
187 páginas
Métodos Cuantitativos II para Empresas
Aún no hay calificaciones
Métodos Cuantitativos II para Empresas
3 páginas
Estadistica Inferencial
Aún no hay calificaciones
Estadistica Inferencial
86 páginas
Programa de Estadistica Aplicada Ii 2013
Aún no hay calificaciones
Programa de Estadistica Aplicada Ii 2013
5 páginas
Programa Mcii 2019
Aún no hay calificaciones
Programa Mcii 2019
4 páginas
Estadistica Inferencial ME
Aún no hay calificaciones
Estadistica Inferencial ME
72 páginas
Guia Examen Final Estadistica I 2023
Aún no hay calificaciones
Guia Examen Final Estadistica I 2023
19 páginas
Trabajos Prácticos
100% (1)
Trabajos Prácticos
43 páginas
Guía Introducción A La Estadística 2025 Definitiva
Aún no hay calificaciones
Guía Introducción A La Estadística 2025 Definitiva
41 páginas
Clase 1 Introducción - Primera Clase
Aún no hay calificaciones
Clase 1 Introducción - Primera Clase
15 páginas
Programa Estadistica - LGE UNdAv
Aún no hay calificaciones
Programa Estadistica - LGE UNdAv
7 páginas
Antologia 3ro. Lia Estadistica
Aún no hay calificaciones
Antologia 3ro. Lia Estadistica
37 páginas
Programa Estadística II 2023
Aún no hay calificaciones
Programa Estadística II 2023
8 páginas
Mafin Con Corporativas PDF
Aún no hay calificaciones
Mafin Con Corporativas PDF
94 páginas
Mafin Con Corporativas
Aún no hay calificaciones
Mafin Con Corporativas
94 páginas
C2025-01 - Estadistica I
Aún no hay calificaciones
C2025-01 - Estadistica I
10 páginas
Silabo-1701209-Analisis de Datos Economicos Ii (2023-B)
Aún no hay calificaciones
Silabo-1701209-Analisis de Datos Economicos Ii (2023-B)
8 páginas
Guía de Estadística Inferencial CE29
Aún no hay calificaciones
Guía de Estadística Inferencial CE29
112 páginas
Guia Didactica Metodos Cuantitativos para La Toma de Decisiones
Aún no hay calificaciones
Guia Didactica Metodos Cuantitativos para La Toma de Decisiones
6 páginas
Estadística II para Administración
Aún no hay calificaciones
Estadística II para Administración
14 páginas
Sílabo Estadística I: Contabilidad y Auditoría
Aún no hay calificaciones
Sílabo Estadística I: Contabilidad y Auditoría
15 páginas
Estadística Aplicada A Los Negocios
Aún no hay calificaciones
Estadística Aplicada A Los Negocios
159 páginas
Estad. Aplic. 2013-Ii PDF
Aún no hay calificaciones
Estad. Aplic. 2013-Ii PDF
159 páginas
Métodos Cuantitativos en Finanzas
Aún no hay calificaciones
Métodos Cuantitativos en Finanzas
5 páginas
DPG Métodos Cuantitativos II
Aún no hay calificaciones
DPG Métodos Cuantitativos II
4 páginas
Métodos Cuantitativos II: Curso 2017
Aún no hay calificaciones
Métodos Cuantitativos II: Curso 2017
3 páginas
Introducción a la Estadística Aplicada
Aún no hay calificaciones
Introducción a la Estadística Aplicada
10 páginas
Estadistica Aplicada
Aún no hay calificaciones
Estadistica Aplicada
101 páginas
Métodos Estadísticos
Aún no hay calificaciones
Métodos Estadísticos
110 páginas
Curso Avanzado de Estadística II
Aún no hay calificaciones
Curso Avanzado de Estadística II
4 páginas
C2024-01 - Estadistica I
Aún no hay calificaciones
C2024-01 - Estadistica I
10 páginas
Programa de Estadística II - Universidad de El Salvador
Aún no hay calificaciones
Programa de Estadística II - Universidad de El Salvador
6 páginas
Actividad 1
Aún no hay calificaciones
Actividad 1
6 páginas
Introducción a la Estadística Inferencial
100% (1)
Introducción a la Estadística Inferencial
6 páginas
Estadística Ejercicio
Aún no hay calificaciones
Estadística Ejercicio
10 páginas
Manual de Estadística para Negocios V.2024
Aún no hay calificaciones
Manual de Estadística para Negocios V.2024
92 páginas
Estadística II: Fundamentos y Aplicaciones
Aún no hay calificaciones
Estadística II: Fundamentos y Aplicaciones
7 páginas
Silabo 2020 A Estadística para Economistas 3
Aún no hay calificaciones
Silabo 2020 A Estadística para Economistas 3
8 páginas
Programa 2023
Aún no hay calificaciones
Programa 2023
7 páginas
Estadística Inferencia Unidad 1
Aún no hay calificaciones
Estadística Inferencia Unidad 1
19 páginas
Contabilidad Tributaria - Conceptos Basicos de Estadistica - Primera Parte - Resumen
Aún no hay calificaciones
Contabilidad Tributaria - Conceptos Basicos de Estadistica - Primera Parte - Resumen
83 páginas
Ejercicios
Aún no hay calificaciones
Ejercicios
36 páginas
Conceptos Basicos de Estadistica Tarea 13-09
Aún no hay calificaciones
Conceptos Basicos de Estadistica Tarea 13-09
15 páginas
Programa Mci 2022
Aún no hay calificaciones
Programa Mci 2022
5 páginas
Estadistica General
Aún no hay calificaciones
Estadistica General
178 páginas
Metodo Cuantitativo PUCMM
Aún no hay calificaciones
Metodo Cuantitativo PUCMM
72 páginas
MK Iii - Tesis Ii Hallazgos y Analisis Estadistico 208 Ii
Aún no hay calificaciones
MK Iii - Tesis Ii Hallazgos y Analisis Estadistico 208 Ii
5 páginas
Guía de Estadística 2015 Unlam
100% (1)
Guía de Estadística 2015 Unlam
85 páginas
Contabilidad V: Flujo y Adquisiciones
Aún no hay calificaciones
Contabilidad V: Flujo y Adquisiciones
4 páginas
Interes Simple Ejercicios
100% (1)
Interes Simple Ejercicios
6 páginas
Actividad 1 Interse Simple
Aún no hay calificaciones
Actividad 1 Interse Simple
6 páginas
Problemas de Interés Simple y Cálculo Financiero
Aún no hay calificaciones
Problemas de Interés Simple y Cálculo Financiero
6 páginas
Actividad 2 Ejercicio de Factores de Ajuste y Actualización
Aún no hay calificaciones
Actividad 2 Ejercicio de Factores de Ajuste y Actualización
2 páginas
Manual de Gestion de La Higiene Clean Trace 3M
100% (1)
Manual de Gestion de La Higiene Clean Trace 3M
15 páginas
Ejercicios Propuestos de Estadistica S1.S2 - Grupo 7 - Foro de Participación
Aún no hay calificaciones
Ejercicios Propuestos de Estadistica S1.S2 - Grupo 7 - Foro de Participación
7 páginas
Quinesis y Método de Monte Carlo
Aún no hay calificaciones
Quinesis y Método de Monte Carlo
16 páginas
Estadistica Industrial 1 (Practica 02, Leonido Rosario Peña) UASD
Aún no hay calificaciones
Estadistica Industrial 1 (Practica 02, Leonido Rosario Peña) UASD
20 páginas
Consumo de Leche en Santa Cruz
100% (4)
Consumo de Leche en Santa Cruz
47 páginas
Manual de Practicas de Laboratorio
Aún no hay calificaciones
Manual de Practicas de Laboratorio
105 páginas
Examen - Prueba II, 1
Aún no hay calificaciones
Examen - Prueba II, 1
7 páginas
Muestreo de Suelo
Aún no hay calificaciones
Muestreo de Suelo
40 páginas
Aprueban La Directiva N 007 2014 Cggcsii Auditoria de Cu Res N 473 2014 CG 1154031 1
Aún no hay calificaciones
Aprueban La Directiva N 007 2014 Cggcsii Auditoria de Cu Res N 473 2014 CG 1154031 1
12 páginas
c4.1 - Libro Ib - Allott 2023 Español
Aún no hay calificaciones
c4.1 - Libro Ib - Allott 2023 Español
29 páginas
Normas Ecuatorianas de Auditoría
100% (1)
Normas Ecuatorianas de Auditoría
192 páginas
Plan de Muestreo Del Botadero Chorrillos
Aún no hay calificaciones
Plan de Muestreo Del Botadero Chorrillos
29 páginas
Distribuciones para Muestras Pequeñas
Aún no hay calificaciones
Distribuciones para Muestras Pequeñas
24 páginas
Fundamentos de Estadística Básica
Aún no hay calificaciones
Fundamentos de Estadística Básica
7 páginas
Guia de Auditoria - Procedimientos Sustantivos - Ver 1.01
100% (3)
Guia de Auditoria - Procedimientos Sustantivos - Ver 1.01
31 páginas
18 8informe de Tecnicas e Instrumentos para Ala Investigacion18
Aún no hay calificaciones
18 8informe de Tecnicas e Instrumentos para Ala Investigacion18
18 páginas
Fundamentos del Muestreo
Aún no hay calificaciones
Fundamentos del Muestreo
12 páginas
Trabajo Final de Estadistica General Yanirca Fernandez Olivero
Aún no hay calificaciones
Trabajo Final de Estadistica General Yanirca Fernandez Olivero
7 páginas
Campeche - Rumbo Al 2027 Elección Gobernador (A) - Mayo 2025
Aún no hay calificaciones
Campeche - Rumbo Al 2027 Elección Gobernador (A) - Mayo 2025
8 páginas
Distribuciones Muestrales y Teorema Central
Aún no hay calificaciones
Distribuciones Muestrales y Teorema Central
5 páginas
Estudio Suplementario de Metodología Investigación Científica
Aún no hay calificaciones
Estudio Suplementario de Metodología Investigación Científica
33 páginas
Silabo 2024-I Estadística y Probabilidades C
Aún no hay calificaciones
Silabo 2024-I Estadística y Probabilidades C
14 páginas
Proyecto Estadistica
Aún no hay calificaciones
Proyecto Estadistica
22 páginas
Muestreo de Aceptación: Conceptos y Métodos
Aún no hay calificaciones
Muestreo de Aceptación: Conceptos y Métodos
4 páginas
Guía de Práctica #9. Inspección y Plan de Muestreo 2024 - 2
Aún no hay calificaciones
Guía de Práctica #9. Inspección y Plan de Muestreo 2024 - 2
6 páginas
Semana 04 - Estadistica Descriptiva
Aún no hay calificaciones
Semana 04 - Estadistica Descriptiva
49 páginas
Practica Intervalos de Confianza
Aún no hay calificaciones
Practica Intervalos de Confianza
3 páginas
Lineamientos Exportación de Cerezas A Corea (2021-08-04)
Aún no hay calificaciones
Lineamientos Exportación de Cerezas A Corea (2021-08-04)
23 páginas
Tabla 2
Aún no hay calificaciones
Tabla 2
29 páginas