0% encontró este documento útil (0 votos)
63 vistas58 páginas

Contraste de Hipótesis: Capitulo

El documento describe las etapas del contraste de hipótesis estadístico. Incluye definir la hipótesis nula (H0) y la hipótesis alternativa (H1), especificar el nivel de significancia, elegir la estadística de prueba, y luego decidir si se rechaza o no se rechaza la hipótesis nula. Explica conceptos como error tipo I, error tipo II, significancia estadística, y unilateral vs. prueba bilateral. El objetivo general es determinar si los datos muestrales apoyan H0
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • variación cíclica,
  • análisis de series cronológica…,
  • distribución de rentas,
  • análisis de regresión múltiple,
  • curva de Lorenz,
  • distribución F,
  • gráficos de control,
  • estadística descriptiva,
  • contraste de hipótesis,
  • ajuste de funciones
0% encontró este documento útil (0 votos)
63 vistas58 páginas

Contraste de Hipótesis: Capitulo

El documento describe las etapas del contraste de hipótesis estadístico. Incluye definir la hipótesis nula (H0) y la hipótesis alternativa (H1), especificar el nivel de significancia, elegir la estadística de prueba, y luego decidir si se rechaza o no se rechaza la hipótesis nula. Explica conceptos como error tipo I, error tipo II, significancia estadística, y unilateral vs. prueba bilateral. El objetivo general es determinar si los datos muestrales apoyan H0
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • variación cíclica,
  • análisis de series cronológica…,
  • distribución de rentas,
  • análisis de regresión múltiple,
  • curva de Lorenz,
  • distribución F,
  • gráficos de control,
  • estadística descriptiva,
  • contraste de hipótesis,
  • ajuste de funciones

Teoría de Estadística II

Prof. Dr. Severo Sala Acosta____________________________________________________ 1

CAPITULO
1

CONTRASTE DE HIPÓTESIS

1.1 CONCEPTOS DEL CONTRATE DE HIPÓTESIS


Una hipótesis estadística es una declaración o afirmación tentativa acerca de un
parámetro o parámetros de una población.
Es una conjetura que el investigador realiza sobre la población, que debe ser
verificada a través de la información muestral.
La hipótesis se formula sobre la población, y las conclusiones sobre la validez de esta
hipótesis se basan en la información muestral
La hipótesis es simplemente una explicación provisional de los hechos, que se anticipa
con el fin de constatar si es cierta. Ella permite centrar la observación sobre aquellos
fenómenos que guardan relación con el problema que se estudia, evitando que muchos
hechos importantes pasen inadvertidos o que el investigador se pierda en un cúmulo de
observaciones inconexas.
Hay cuatro posibles resultados:
1. Cuando H0 es verdadera y se rechaza, se trata de un error tipo I; la probabilidad de
cometer este error es .

2. Cuando H0 es verdadera y se acepta, se trata de una decisión correcta; la


probabilidad de realizar esta decisión es 1 - .

3. Cuando H0 es falsa y se acepta, se trata de un error de tipo II; la probabilidad de


cometer este error es .

4. Cuando H0 es falsa y se rechaza, se trata de una decisión correcta; la probabilidad


de realizar esta decisión correcta es 1 - .

RESUMEN

REFERENCIA TIPO DE ERROR PROBABILIDAD


Rechazar H0 cuando es verdadera I significación)
Aceptar H0 cuando es falsa II 
Aceptar H0 cuando es verdadera confianza)
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 2

Rechazar H0 cuando es falsa potencia)


La tarea está concluida cuando se rechaza o no la H0.

1.2 ETAPAS DE UNA PRUEBA DE HIPÓTESIS


Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) de un
parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la
estadística muestral, así como la media (X), con el parámetro hipotético. Después, se
acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si
el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.

Etapa 1: Identificación del patrón de la población: se refiere a la forma de


distribución de la población:¿normal?, ¿binomial?.
La normal es una buena distribución de otras distribuciones; sin embargo hay muchos
casos en los cuales no puede aplicarse la distribución normal. Luego, el primer problema
consiste en identificar la distribución probabilística.

Procedimientos estadísticos:
- Enfoque paramétrico: requiere la identificación de la distribución probabilística.
- Enfoque no paramétrico: es un enfoque libre que no requiere especificación acerca
de la distribución.

Etapa 2: plantear la hipótesis nula y la hipótesis alternativa.


(a) Hipótesis nula: representa la conclusión que se obtendría si el proceso
funcionara en forma correcta, se denota con H0. Una hipótesis nula es una declaración
tentativa de que un parámetro de la población es igual a un valor específico ( está implícita
la idea de que no hay diferencia). La hipótesis se considerará cierta a no ser que se
produzca suficiente evidencia en contra. Cuando se recoge una información muestral, esta
hipótesis es juzgada, o contrastada. Si la hipótesis no es cierta, entonces, debe ser cierta
alguna hipótesis alternativa, así el investigador elabora un contraste y formula una hipótesis
alternativa, frente a la cual se contrasta la hipótesis nula.
(b) Hipótesis alternativa: Se denota generalmente con H1. Se acepta cuando se
rechaza H0. Es una declaración tentativa de que el mismo parámetro de la población
tiene un valor diferente del especificado en H0. Ejemplo: H1 :  ≠ 50.
Quien realiza el trabajo estadístico obtiene datos muestrales para determinar si existe
evidencia para apoyar H1.
Si los datos muestrales muestran un promedio suficientemente bajo, la H0 se rechaza
en favor de la H1. De manera semejante si los datos muestrales muestran un promedio
suficientemente alto, también se rechaza H0.
La hipótesis, nula o alternativa puede designar un único valor, para el parámetro
poblacional (). En este caso, se dice que la hipótesis es simple. Ho :  = o (valor específico)
La hipótesis también puede designar un rango de valores para el parámetro
poblacional desconocido. Una hipótesis de este tipo se denomina compuesta y será cierta
para más de un valor del parámetro poblacional. ( > o o  < o ).
En muchas aplicaciones, se contrasta una hipótesis nula simple, digamos Ho :  = o
frente a una alternativa compuesta. En algunos casos, sólo interesan alternativas a un lado
de la hipótesis nula. Por ejemplo H1:  > o ó H1:  < o que se denominan alternativas
unilaterales.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 3

Una prueba que implique cualquiera de las dos alternativas se denomina Prueba de
una cola o unilateral.
Otra posibilidad es que queremos contrastar esta hipótesis nula simple frente a la
alternativa general de que el valor  es cualquiera distinto de o , es decir, H1 :  ≠ o
Debido a que la H1 no especifica la dirección de la diferencia, se le denomina Prueba
de dos colas o bilateral.

Ejemplo 1: Uno puede estar interesado solamente en si el promedio es mayor de


50. Entonces: H1 :  > 50
Aquí la hipótesis nula se rechaza solo si la evidencia muestral indica un valor
suficientemente grande para .

Ejemplo 2: De la misma manera, puede haber interés sólo si el promedio es


menor de 50. Entonces H1 :  < 50.
En éste caso la H1 se rechaza sólo si la evidencia muestral indica un valor bastante
bajo para .

Ejemplo 3: Un auditor desea probar el supuesto de que el valor promedio de todas las
cuentas por cobrar en una empresa determinada es de $260.000, tomando una muestra de
n=36 y calculando la media muestral lo contradice en forma clara, porque debe “darse el
beneficio de la duda” al valor hipotético en el procedimiento de prueba. Las hipótesis nula y
alternativa para esta prueba son: Ho:= $260.000 y H1:  $260.000.

Etapa 3: Especificar el nivel de significancia que se va a utilizar


El nivel de significación es el estándar estadístico que rechaza la hipótesis nula. Si se
especifica un nivel de significación del 5%, entonces se rechaza la hipótesis nula solamente
si el resultado muestral es tan diferente del valor hipotético.
Debe observarse que si se utiliza el nivel de significancia del 5%, existe una
probabilidad del 0.05 de rechazar a la hipótesis nula cuando, de hecho, es cierta. A esto se le
denomina error tipo I. La probabilidad del error tipo I es siempre igual al nivel de
significación que se utiliza como criterio para rechazar la hipótesis nula; se le designa
mediante la letra griega “alfa”. Los niveles que se utilizan con mayor frecuencia en las
pruebas de hipótesis son el 5%, el 1% y el 2%.
Ocurre un error de tipo II si se acepta la hipótesis nula cuando, de hecho, es falsa.
Ya que  es la probabilidad de cometer un error de tipo 1, ¿por qué no seleccionar el
menor valor posible?.
Conforme  disminuye, aumenta la probabilidad de aceptar una hipótesis H0 falsa. El
error de no rechazar la H0 cuando es falsa se denomina: error tipo 2 : .

OBS.: Solo se puede reducir la probabilidad de cometer un error de un tipo, a costa


de incrementar la probabilidad de cometer un error de otro tipo. Solo pueden
reducirse ambas probabilidades simultáneamente si se aumenta el tamaño muestral.
Significante o estadísticamente significante, es cuando se rechaza la hipótesis, es
decir, cuando el valor calculado (Z, t, etc.) cae en la región de significación (región de
rechazo). Cuando la diferencia observada no puede explicarse fácilmente por el azar.
No significante, es cuando se acepta la hipótesis, es decir, cuando el valor calculado
(z, t, etc.) cae en la región de confianza. Cuando la diferencia observada puede ser
producido por el azar.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 4

Cuando se acepta la hipótesis nula se puede decir que la diferencia con la media
poblacional no es significante, si por el contrario, si se rechaza la hipótesis nula, la
diferencia con la media poblacional es significante.
Etapa 4: Elegir la estadística de prueba
La estadística de prueba puede ser la estadística muestral (el estimador insesgado del
parámetro que se prueba) o una versión transformada de esa estadística muestral. Por
ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una
muestra aleatoria de esa población para utilizarla como estadística de prueba. Sin embargo,
si la distribución de muestreo de la media tiene distribución normal, entonces es común que
se transforme la media muestral en un valor “Z” el cual, a su vez, sirve como estadística de
prueba.
Estadístico de prueba: es una variable aleatoria cuyo valor se utiliza para llegar a la
decisión de rechazar o no la H0. Puede ser la media muestral X o alguna otra variable
como Z.
Los valores del estadístico de prueba se dividen en dos categorías:
1) Región de rechazo (región crítica)
2) Región de no rechazo (aceptación)
La región de no rechazo es el conjunto de valores para el estadístico de prueba, que
provocará la aceptación de H0.
El valor que separa las dos regiones, es el “ valor crítico”; es el primer valor de la
región crítica.
La región crítica es el conjunto de valores que serán lo suficientemente grandes como
para provocar el rechazo de la H0.
Tienen que ser valores grandes, debido a que el rechazo de H0 significa la aceptación
de H1.

Etapa 5: Determinar el valor real de la estadística de prueba


Por ejemplo, al probar un valor hipotético de la media poblacional, se toma una
muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se
establece es un valor de Z, entonces se transforma la media muestral en un valor de Z.

Etapa 6: Tomar la decisión


Se compara el valor observado de la estadística muestral con el valor (o valores)
críticos de la estadística de prueba. Después, se acepta o se rechaza la hipótesis nula. Si se
rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efecto sobre otras
decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar
de desempeño o cuál de dos estrategias de mercadotecnia utilizar.

La regla de la decisión sería: rechazar (?) si la media muestral es mayor que C (punto
crítico) ó menor que C. La media puede convertirse en un valor Z (a menudo Z puede
utilizarse como estadístico de prueba). En este caso el valor crítico se toma de la tabla
normal estándar.

1.3 PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA


UTILIZANDO LA DISTRIBUCIÓN NORMAL
Puede utilizarse la distribución normal para probar un valor hipotético de la media
poblacional: (1) cuando la muestra es grande (n ≥ 30), utilizando el teorema del límite
central, o (2) cuando la muestra es pequeña (n<30), pero la distribución de la población es
normal y se conoce “”.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 5

Comencemos con el problema de contrastar la hipótesis nula de que la media


poblacional es igual a cierto valor, Esta hipótesis se representa H0 :  =  o .
Supongamos que la hipótesis alternativa de interés es que la media poblacional
supera este valor específico, es decir, H1 :  >  o.
Es natural que el contraste sobre la media poblacional se base en la media muestral.
En particular, uno desconfiaría de la veracidad de una hipótesis nula, frente a esta
alternativa, si la media muestral observada fuese mucho mayor que  o . El contraste se
apoya en el hecho de que la variable aleatoria Z sigue una distribución normal estándar, es
decir, con media  y desviación típica /n.
En algunos casos, sólo interesan alternativas a un lado de la hipótesis nula, por
ejemplo:
H1:  >  o ó H1:  <  o

Las hipótesis alternativas de este tipo se denominan alternativas unilaterales.


RESUMEN
a) Prueba de una y de dos colas:
H0 :  =  o
H1 :    o
Enunciado: rechazar H0 si el estadístico de prueba Z > Z/2 ó Z < - Z/2
H1 :  >  o,
Enunciado: Rechazar H0 si el estadístico de prueba Z > Z
H1 :  <  O
Enunciado: rechazar h0 si el estadístico de prueba Z < - Z
donde ” o” es cualquier valor específico para la media verdadera.

b) Prueba de una cola


H0 :    o
H1 :  >  o
Enunciado: Rechazar H0 si el estadístico de prueba Z > Z

H0 :    o
H1 :  <  o
Enunciado: Rechazar H0 si el estadístico de prueba Z < -Z.

Ejemplo1: Sea o el peso medio poblacional (en gramos) de cereales por caja. La
hipótesis nula es que esta media es al menos 200 gramos, luego tenemos: H0:   200
La alternativa es que el verdadero peso medio es inferior a 200 gramos, es decir, H1: 
< 200.
Ejemplo 2: La compañía resuelve aceptar envíos de piezas siempre que no tenga
evidencia para sospechar que más del 5% son defectuosas. La hipótesis nula aquí es como
sigue: H0: p  0.05. La alternativa es H1: p > 0.05. La hipótesis nula, entonces, es que el
cargamento de piezas tiene una calidad adecuada, mientras que la alternativa es que no la
tiene.

Ejemplo 3: Suponga que la conjetura de la profesora es que la realización de controles


regularmente no produce diferencias en el promedio de las puntuaciones del examen final.
Denotemos por  la diferencia entre las puntuaciones medias poblacionales para las dos
partes del curso, con o sin controles regulares. La hipótesis nula es como sigue: H0:  = 0.
Sin embargo la profesora puede sospechar que posiblemente los controles produzcan un
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 6

incremento en el promedio y, en consecuencia, querrá contrastar la hipótesis nula frente a la


alternativa H1:  > 0.
En otros casos queremos contrastar una hipótesis nula de igualdad frente a la
alternativa general, es decir, de no igualdad que se denomina alternativa bilateral.

Ejemplo 4: Un investigador puede considerar que la propuesta de reforma fiscal es


acogida de igual forma por hombres y mujeres. Si  es la diferencia entre las dos
proporciones poblacionales a favor de la propuesta, entonces, la hipótesis nula es H0:  = 0.
Si el investigador no tiene una buena razón para sospechar que la mayor parte del
apoyo venga de una población en lugar de la otra, esta hipótesis nula puede contrastarse
frente a la hipótesis alternativa bilateral H1:   0

1.4 CONEXIÓN ENTRE INTERVALOS DE CONFIANZA Y


PRUEBA DE HIPÓTESIS

Los intervalos de confianza se usan para estimar los parámetros, mientras que las
pruebas de hipótesis se utilizan para tomar decisiones sobre valores especificados de
parámetros de la población.

1.5 CONTRASTES PARA LA VARIANZA DE UNA DISTRIBUCIÓN


NORMAL

En esta parte, desarrollaremos procedimientos para contrastar hipótesis sobre la


varianza poblacional 2 , a partir de una muestra aleatoria de n observaciones de una
población normal. La variable aleatoria 2 sigue una distribución chi-cuadrado con (n-1)
grados de libertad. Si la hipótesis nula es que la varianza de la población es igual a cierto
valor específico 2o , es decir: Ho: 2 =2º, entonces, cuando la hipótesis nula es cierta, la
variable aleatoria 2n-1, sigue una distribución chi-cuadrado con (n-1) grados de libertad.
Los contrastes de hipótesis sobre la varianza de una población normal se basan, entonces, en
el valor observado en la muestra para la variable.

(n  1) S 2
  2 n1
 02
Contraste para la varianza de una población normal:
Supongamos que disponemos de una muestra de n observaciones de una población
normal con varianza 2 . Si la varianza muestral observada es S2, entonces, los siguientes
contrastes tienen nivel de significación :

1) Para contrastar una de las hipótesis nulas

Ho: 2 =20 ; Ho: 2  20 , frente a la alternativa H1: 2 > 20

(n  1) S 2
La regla de decisión es : rechazar Ho si
  2 n1 
0 2

2) Para contrastar una de las hipótesis nulas Ho: 2 =20 Ho: 2  20 frente a la
alternativa H1: 2 < 20 la regla de decisión es:

Rechazar Ho si
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 7

(n  1) S 2
  2 n1 1
0 2

3) Para contrastar hipótesis nula Ho: 2 =20 frente a la alternativa 2 20, la regla de
decisión es:
Rechazar Ho si
(n  1) S 2
  2 n1  / 2 (n  1) S 2
 02 o   2 n1( 1 / 2)
0 2

1.6 CONTRASTE DE UN VALOR HIPOTÉTICO DE LA MEDIA


UTILIZANDO LA DISTRIBUCIÓN t DE STUDENT
Es apropiada como estadística de prueba cuando la muestra es pequeña (n < 30), tiene
una distribución normal y se desconoce dispersión poblacional ().
Supongamos que disponemos de una muestra aleatoria de n observaciones de una
población normal con media media muestral x y desviación típica s observadas,
entonces los siguientes contrastes tienen nivel de significación .

a) Prueba de una y de dos colas:


H0 :  =  o
H1 :    o
Enunciado: rechazar H0 si el estadístico de prueba t > t(n-1)/2 ó t <- t(n-1)/2

H1 :  >  o,
Enunciado: Rechazar H0 si el estadístico de prueba t > t

H1 :  <  O
Enunciado: rechazar h0 si el estadístico de prueba t < - t
donde ” o” es cualquier valor específico para la media verdadera.

b) Prueba de una cola


H0 :    o
H1 :  >  o
Enunciado: Rechazar H0 si el estadístico de prueba t > t

H0 :    o
H1 :  <  o
Enunciado: Rechazar H0 si el estadístico de prueba t < - t

1.7 CONTRASTE PARA LA DIFERENCIA ENTRE DOS MEDIAS


En esta parte examinaremos el caso en el que se dispone de muestras aleatorias de dos
poblaciones, y en el que el parámetro de interés consiste en la diferencia entre las dos
medias poblacionales.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 8

1.7.1 CONTRASTES BASADOS EN DATOS PAREADOS

En muchas situaciones, las muestras se extraen como pares de valores, tal como
cuando se determina el nivel de productividad de los trabajadores, antes y después de un
programa de capacitación. A esta clase de datos se les denomina observaciones apareadas o
pares asociados, también se denominada muestras dependientes.
El método apropiado para probar la diferencia entre las medias de dos muestras,
consiste primero en determinar la diferencia d entre cada par de valores, y después probar la
hipótesis nula de que la diferencia poblacional promedio es 0. Por ello, desde el punto de
vista de los cálculos, se aplica una prueba a una muestra de valores d

d 
 d
.......... .media Sd 
 (d  d ) 2

...desviaciónestándar
n n 1
d
Sd 
d 2
 n( d ) 2 Sd t .
n 1
...desviaciónestándar Sd  . Sd
n

1) H 0 : 1   2  D0 .....o....H 0 : 1   2  D0 ....hipótesisnula.
H1 : 1   2  D0 ...alternativa Re chazar si : t  t( n1).
2) H 0 : 1  2  D0
H 0 : 1   2  D0
Re chazar si : t  t ( n1). / 2 ......o... Re chazar si : t  t ( n1). / 2

3) H 0 : 1  2  D0 .....o....
H 0 : 1   2  D0 ....hipótesisnula.

H 1 : 1   2  D0 ...alternativa Re chazar si : t  t (n1).

P(t n1  t ( n1; )  

Cuando la muestra es pequeña (n < 30) se utiliza la distribución t de Student.


Cuando la muestra es grande (n> 30) se utiliza la distribución normal.

1.7.2 CONTRASTES BASADOS EN MUESTRAS INDEPENDIENTES

Gracias al teorema central del límite, si los dos tamaños muestrales son grandes, el
resultado sigue siendo una buena aproximación cuando se sustituyen las varianzas
poblacionales por las muestrales, incluso cuando las distribuciones poblacionales no son
normales.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 9

1.7.3 CONTRASTES PARA LA DIFERENCIA ENTRE DOS MEDIAS


UTILIZANDO LA DISTRIBUCIÓN NORMAL (varianzas conocidas o
tamaños muestrales grandes)

Para determinar el valor de Z se utiliza el error estándar de la diferencia entre las


medias. El uso de la distribución normal se basa en las mismas condiciones que en el caso
de una muestra, excepto que ahora se tienen dos muestras independientes.
La hipótesis nula que generalmente se prueba consiste en que las dos muestras se
obtienen de poblaciones con medias iguales. En este caso, la diferencia entre las dos medias
es igual a cero (D0 = 0).

1.7.4 CONTRASTES PARA LA DIFERENCIA ENTRE MEDIAS DE DOS


POBLACIONES NORMALES, UTILIZANDO LA DISTRIBUCIÓN T DE
STUDENT (varianzas poblacionales iguales)

Se requiere la suposición de que las varianzas de las dos poblaciones sean iguales y
que las muestras sean pequeñas (v = n1 + n2 - 2) < 30

1.7.5 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES


POBLACIONALES (muestras grandes)

Cuando se desea probar la hipótesis de que las proporciones de dos poblaciones no


son distintas, se combinan las dos proporciones muestrales para proceder a determinar el
error estándar de la diferencia de las proporciones.
Cada muestra debe contener al menos 40 observaciones.
Las pruebas sobre la diferencia entre dos proporciones pueden llevarse a cabo como
pruebas de un extremo o de dos extremos.

1.8 PRUEBA PARA EL VALOR HIPOTÉTICO DE LA VARIANZA


UTILIZANDO LA DISTRIBUCIÓN JI CUADRADO

Las pruebas pueden ser de uno o de dos extremos, aunque las hipótesis mas comunes
con respecto a las varianzas poblacionales se refieren a pruebas de un extremo. Puede
utilizarse la tabla para determinar el o los valores críticos de la estadística ji-cuadrado para
diversos niveles de significación.
Las pruebas pueden ser de uno o de dos extremos, aunque las hipótesis más comunes
con respecto a las varianzas poblacionales se refieren a pruebas de un extremo.

(n  1).S 2
 
2 Es la estadística que se utiliza para probar el valor hipotético de una varianza
0 2 poblacional

1.9 DISTRIBUCIONES F Y LA PRUEBA PARA LA DIFERENCIA ENTRE


DOS VARIANZAS

La distribución F comienza en cero y va aumentando hasta alcanzar un máximo en el


valor de n2 (n1  n2 ) y después se reduce, tendiendo a cero a medida que el valor de F
n1 ( n 2  2)
aumenta hasta el infinito.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 10

La configuración de esta distribución varia con n1 y n2; pero a medida que n1 y n2


aumentan, la distribución tiende a ser simétrica. La distribución normal y la de t son casos
especiales de la distribución F. Los valores de F siempre se dan basándose en el número de
grados de libertad, en vez del tamaño de las muestras.

La distribución F puede utilizarse únicamente si las dos poblaciones tienen


distribución normal, aún si las muestras son grandes; no hay teorema del límite central.

Algunas características de la distribución F

1.- Una puntuación F es el cociente de dos varianzas de población estimadas


independientemente.
F = S2 1 / S2 2
n1 = tamaño de la muestra de la primera población
n2 = tamaño de la muestra de la segunda población
F = distribución calculada

2.- La distribución F es una distribución de probabilidad, esto es, el área debajo toda
la curva es 1, y la probabilidad que una F quede entre a y b es dada por el área debajo de la
curva entre a y b
3.- En toda distribución F el rango de valores F es de 0 a 
4.- Los cuadros F se dan en términos de grados de libertad: V1 = n1 – 1; V2 = n2 - 1
La forma de cualquier distribución F depende de los valores V1 y V2. Todos estos
valores son asimétricos a la derecha, pero se tornan más simétricos según aumenta el
número de grados de libertad.
F (V1; V2 ) distribución de la tabla

1.9.1 COMO USAR UN CUADRO F

En la tabla se dan valores de F cuando el extremo derecho de la distribución tiene área


de 0,05 o 0,01.
En consecuencia, las pruebas de hipótesis de dos extremos sólo pueden hallarse
valiéndose de estos cuadros si  = 0,10 ó 0,02.
En la tabla se presenta únicamente valores de F para porcentajes en el extremo
derecho, de modo que se necesita calculo adicional para pruebas de dos extremos ó de un
extremo izquierdo.
Para encontrar el valor crítico de F para V1 y V2 , encuéntrese el valor crítico de F
para V2 y V1 grados de libertad ( adviértase que se invierte el orden de la V ) y tómese su
recíproca:
.1
F (v1v2 inf erior) 
F (v2v1 sup erior)

El valor crítico inferior siempre es menor que 1


Es posible simplificar los cálculos usando como n1,X1, S12 la muestra que presente
mayor varianza; en este caso no se necesita calcular el límite inferior, puesto que F siempre
excederá de l, los valores tabulares también; mientras que el valor crítico menor de F
(límite inferior) será menor que 1.
La distribución F es el modelo de probabilidad apropiado para el cociente de las
varianzas de las muestras tomadas en forma independiente de la misma población con
distribución normal

Es la estadística que se utiliza para probar la hipótesis nula de que no existe


diferencia entre las dos varianzas
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 11

2
.S1
F
S 22

Como todas las varianzas muestrales son estimadores insesgados de la varianza


poblacional, el valor esperado a largo plazo del cociente es aproximadamente 1
La distribución F tiene una función de densidad asimétrica, definida sólo para
valores no negativos.
En aplicaciones prácticas, pondremos siempre la mayor varianza en el numerador.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 12

Capítulo
2

LA PRUEBA JI-CUADRADA

2.1 CONTRASTES DE BONDAD DE AJUESTE Y TABLAS DE


CONTINGENCIA
La distribución ji-cuadrado se usa para pruebas de bondad del ajuste, prueba de la
independencia de dos variables y pruebas para hipótesis sobre proporciones.

2.1.1. PRUEBAS DE BONDAD DEL AJUSTE

La hipótesis nula de una prueba de bondad del ajuste es una afirmación sobre el
patrón esperado de las frecuencias en un conjunto de categorías.
Para contrastar la hipótesis, se compara el número de observaciones muestrales en
cada categoría observada con el esperado. Si el número de valores muestrales observados
en cada categoría fuesen muy cercanos a aquellos esperados, entonces existiría evidencia a
favor de la hipótesis nula, ya que el valor calculado de ji-cuadrado estará muy cerca de cero
(0). En tales circunstancias diríamos que los datos se ajustan a la distribución de
probabilidad que habíamos supuesto seguía la población. Nuestros contrastes de la hipótesis
nula estarán basados en la evaluación del grado de ajuste y, generalmente, nos referiremos a
ellos como contrastes de bondad de ajuste.
Ahora bien, para contrastar la hipótesis nula, lo natural será examinar el tamaño de
las diferencias entre lo que es observado y lo que es esperado. Cuanto mayor sea la
diferencia en valor absoluto, más sospecharemos de la hipótesis nula. Rechazaremos la
hipótesis nula cuando los valores observados difieren sustancialmente de los valores
esperados
El valor de ji-cuadrado que se utiliza para probar la diferencia entre un patrón de
frecuencias observado y otro esperado es:
(Oi  Ei ) 2
2  
Oi......frecuencias observadas
Ei......frecuencias esperadas
Ei

2.1.2 PRUEBAS PARA LA INDEPENDENCIA DE DOS VARIABLES (TABLAS


DE CONTINGENCIA)

Las pruebas de independencia implican dos variables categóricas y lo que se prueba


es la suposición de que las dos variables son estadísticamente independientes. Como se
trabaja con dos variables, se anotan las frecuencias observadas en una tabla de clasificación
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 13

doble o tabla de contingencia. Mediante la expresión r x c se definen las dimensiones de este


tipo de tablas, en donde r el número de renglones y c el número de columnas.
La hipótesis nula que se quiere contrastar es que no existe asociación entre los
atributos. Si se rechaza la hipótesis nula, es señal de que los dos atributos son dependientes
y que existe una relación entre ellas.
Ri . C j Estimación del número esperado de observaciones
ˆ
E 
i j
n
r c
(Oij  Eˆ ij)2
 
2

i 1 j 1 Eˆ ij
Nuestro contraste de la hipótesis nula de no asociación estará basado en las
magnitudes de las diferencias entre los valores observados y los valores esperados.

ANÁLISIS DE VARIANZA

En el capítulo referente a contraste de hipótesis, vimos cómo contrastar la


hipótesis de igualdad de dos medias poblacionales. Nuestros contrastes suponían
o muestras aleatorias independientes u observaciones en parejas.
En este capítulo, nuestro objetivo es ampliar estos procedimientos para contrastar
la igualdad de varias medias poblacionales.
El análisis de la varianza se utiliza para probar las diferencias entre diversas
medias. Una suposición en la que se basa, consiste en que las diversas medias
muestrales se obtienen a partir de poblaciones con distribución normal y con la
misma varianza. La hipótesis nula consiste en que las medias poblacionales son
iguales, la suposición de igualdad de varianzas también implica que, para
propósitos prácticos, la prueba se ocupa de la hipótesis de que las medias
provienen de la misma población. Esto es así porque cualquier población
distribuida normalmente queda definida por sus dos parámetros, la media y la
varianza ( o desviación estándar).
Si el cociente F se encuentra en la región de rechazo para el nivel de significancia
especificado, entonces se rechaza la hipótesis de que las diversas medias
muestrales provienen de la misma población.
El procedimiento del análisis de varianza con un criterio de clasificación, se
ocupa de probar la igualdad de varias medias poblacionales.

Análisis de Varianza de un factor

Sirve para comparar las medias de K poblaciones, cada una de las cuales se
supone que tiene una misma varianza. Se toma, para estas poblaciones, muestras
aleatorias independientes de tamaños n1, n2…. nk, respectivamente, utilizando el
símbolo X para designar los valores muestrales.
El procedimiento para contrastar la hipótesis de igualdad de medias en este
contexto, se denomina análisis de varianza de un factor.
En esta sección, desarrollaremos el contraste de hipótesis nula de igualdad de
medias para k poblaciones, dadas muestras aleatorias independientes para tales
poblaciones.
El contraste de igualdad de medias, está basado en la comparación de dos tipos
de variabilidad de los miembros de la muestra. La primera, es la variabilidad en
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 14

torno a las medias individuales muestrales de los K grupos de


observaciones, que se denomina como variabilidad dentro de los grupos. La
segunda es la variabilidad entre las medias de los K grupos, denominada
variabilidad entre grupos

El supuesto fundamental en que se basa el análisis de varianza, es que las


diversas medias muestrales se obtienen a partir de poblaciones con distribución
normal y con la misma varianza.

Hacemos los siguientes supuestos adicionales:


-Las varianzas poblacionales son las mismas
-Las distribuciones poblacionales son normales
-Un contraste a nivel de significación α quedará determinado por la siguiente
regla de decisión:
Rechazar H0 si: F>F(k-1; n-k) α . Si el cociente F se encuentra en la región de rechazo
para el nivel de significancia especificado, entonces se rechaza la hipótesis de que
las diversas medias muestrales provienen de la misma población.

Variación total: es la suma de los cuadrados de las desviaciones de cada


medida (valor de la variable) respecto a la media global

Variación entre grupo: es la suma de los cuadrados de las desviaciones de


las diversas medias respecto a la media global.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 15

Capítulo
3

REGRESIÓN Y CORRELACIÓN

3.1 OBJETIVOS Y SUPOSICIONES DEL ANÁLISIS DE


REGRESIÓN
Es la rama de la Teoría Estadística que permite ajustar una ecuación de algún tipo al
conjunto de datos dado, con el propósito de obtener una ecuación de predicción que
relacione las variables de estudio.
El término de análisis de regresión simple indica que se estima el valor de la variable
dependiente con base en una variable independiente, en tanto que el análisis de regresión
múltiple se ocupa de la estimación del valor de la variable dependiente con base en dos o
más variables independientes.
Las suposiciones generales en las que se basa el modelo de la regresión son: 1) la
variable dependiente es una variable aleatoria; 2) las variables dependiente e independiente
tienen una relación lineal; y 3) las varianzas de las distribuciones condicionales de la
variable dependiente, para diversos valores de la variable independiente, son iguales. La
primera suposición indica que, aunque pueda controlarse los valores de la variable
independiente, los valores de la variable dependiente se deben obtener a través del proceso
de muestreo.
El principal objetivo del análisis de regresión es estimar el valor de una variable
aleatoria (variable dependiente) conociendo el valor de una variable asociada (variable
independiente)
Ejemplo: Un analista desea estimar el tiempo de entrega de refacciones industriales
embarcadas por camión. Desea utilizar el tiempo de entrega como variable dependiente y la
distancia como variable independiente. Suponga que elige diez embarques recientes de los
registros de la compañía, de manera que las distancias por carretera correspondientes están
más o menos equitativamente dispersas entre 100 y 1000 Km. de distancia, y registra el
tiempo de entrega para cada embarque. Como se va a utilizar la distancia por carretera como
variable independiente, esa selección de viajes con distancias específicas resulta aceptable.
Por otro lado, la variable dependiente (el tiempo de entrega) es una variable aleatoria en su
estudio, lo cual se ajusta a los supuestos del análisis de regresión. El que las variables
tengan o no una relación lineal, por lo general se determina construyendo un diagrama de
dispersión o una gráfica de residuales. Estos diagramas se utilizan también para observar si
la dispersión vertical (varianza) es más o menos igual a lo largo de la línea de regresión.

3.2 DIAGRAMA DE DISPERSIÓN


Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 16

Significa representar los puntos empíricos en un sistema de coordenadas.


Es una gráfica que representa dos variables conjuntamente, representándose la
variable conocida en el eje horizontal (X ) y la variable a ser estimada en el eje vertical (Y).
Permite realizar un primer análisis del comportamiento de los datos.
Lógicamente, mientras más tiendan los puntos a caer sobre la línea de regresión, más
estrecha es la relación entre las dos variables.
Si por el contrario, no existiera ninguna asociación entre las dos variables, los puntos
tenderían a alejarse considerablemente de la línea, formando una especie de círculo o
cuadrado. En tal caso se concluiría que no existe asociación entre las dos variables y con
ello se terminaría en análisis.
Puede brindar dos tipos de información:
1) Visualmente podemos buscar patrones que indican que las variables están
relacionadas.
2) Si existe una relación entre ellas, podemos ver qué clase de línea o ecuación de
estimación describe dicha relación.
Con el diagrama de dispersión es posible frecuentemente representar una curva que se
aproxime a los datos. Tal curva se llama "curva de aproximación"; si los datos se aproximan
a una línea recta, se dice que entre las variables existe una relación lineal, si no es lineal se
dice que existe una relación no lineal.
Por convención, a la variable conocida, llamada variable independiente, siempre se
la representa en el eje de X. La variable a ser estimada es la variable dependiente y se la
representa en el eje de Y.

Ejemplo: el administrador ha reunido una muestra aleatoria de datos tomados de los


archivos de la universidad, dispuestos en la siguiente tabla:
Calificación de los estudiantes en los exámenes de admisión y
Promedios acumulativos de calificaciones en la graduación

Estudiante A B C D E F G H
Calificaciones * 74 69 85 63 82 60 79 91
Promedios acumulativos ** 2,6 2,2 3,4 2,3 3,1 2,1 3,2 3,8

Diagrama de dispersión Diagrama de dispersión y línea


4 ajustada
4
Promedios

3
Promedios

3
2 2

1 1

0 0
50 60 70 80 90 50 60 70 80 90
Calificaciones Calificaciones

Comentario: como se observa, la línea trazada por los puntos de los datos representa
una relación directa, porque Y aumenta cuando lo hace X. Dado que los puntos de los datos
están relativamente cercanos a ésta línea, se puede afirmar que existe un alto grado de
asociación entre las calificaciones conseguidas en el examen, y el promedio acumulativo de
calificaciones, así, la relación descrita por los puntos de datos también es una recta. Por lo
tanto, podemos decir que ésta es una relación lineal.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 17

3.3. REGRESIÓN LINEAL SIMPLE Y CORRELACION


Estudia la relación existente en el comportamiento de las series y con qué grado de
intensidad se manifiesta dicha relación.
Regresión es el proceso general de predecir una variable a partir de otra; puede ser
simple o múltiple.
Si existe una relación bien establecida entre dos o más series, entonces es posible
utilizar esta relación para estimar una variable basándose en valores conocidos de las otras
variables.
Al uso de la relación entre una variable conocida y otra desconocida para estimar la
variable desconocida se le denomina análisis de regresión.
A la medición del grado de asociación entre dos o más variables se la llama "análisis
de correlación"
Correlación: es el método que permite medir el grado de asociación entre las
variables de estudio. Establece con que precisión la ecuación de estimación describe la
relación.
Son dos técnicas por separado, con la regresión para predicción y la correlación
para la asociación. En muchas aplicaciones al investigador solo le interesa medir la
asociación entre las variables, no usar una variable para predecir otra.
El objetivo del análisis de correlación sería medir la fuerza de la asociación entre
dos variables.
El objetivo de la regresión es utilizar una variable para predecir los valores de la
otra.

3.3.1 CORRELACIÓN LINEAL


Unas veces nuestro interés está en conocer si las dos variables están asociadas y medir
hasta qué punto los cambios en una pueden explicarse por los cambios que ocurren en
la otra. En tal caso tenemos un problema de correlación y la unidad de medida es el
llamado coeficiente de correlación (r).
Usamos para expresar el grado de aproximación de los puntos del diagrama de
dispersión a los de la recta de regresión. Es el grado de fidelidad con que la recta de
regresión describe la relación entre las variables.
Un coeficiente de correlación grande (próximo a 1 en valor absoluto) significa una
gran concentración de puntos alrededor de la recta; un valor pequeño, significa una mayor
dispersión de los puntos con respecto a la recta de regresión.
El coeficiente de correlación debe estar entre –1 y 1, es decir (-1  r  1) y que:
a) Una correlación –1 implica una asociación lineal negativa perfecta.
b) Una correlación 1 implica una asociación lineal positiva perfecta.
c) Una correlación 0 implica que no hay asociación lineal.
d) Cuanto mayor sea el valor absoluto de la correlación, más fuerte es la asociación
lineal entre las variables aleatorias.
e) Es una medida de asociación lineal o dependencia lineal únicamente, por
consiguiente no tiene sentido, utilizarlo para describir relaciones no lineales.
f) Aunque mide la asociación lineal entre dos variables, no necesariamente implica
una relación de causa y efecto.
g) En la práctica pues, sólo se observan valores intermedios entre -1 y +1
h) El cálculo del coeficiente de correlación solo se justifica cuando el gráfico señala
que la asociación estudiada puede ser convenientemente resumida por una línea
recta.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 18

3.3.2 REGRESIÓN LINEAL

Es una ley que describe en promedio, la relación entre las variaciones de ambos
atributos.

3.3.3 ECUACIÓN
Es un modelo matemático que representa la relación entre las variables dependiente e
independiente.
3.3.4 RELACIÓNES

Si todos los puntos del diagrama de dispersión parecen encontrarse cerca de una recta,
la correlación se dice lineal.
Si Y tiende a incrementarse cuando se incrementa X, la correlación se dice positiva o
correlación directa.
Si Y tiende a disminuir cuando se incrementa X, la correlación es inversa.
Si todos los puntos parecen estar cerca de alguna curva, la correlación se dice no
lineal, que puede ser positiva o negativa.
Si no hay ninguna relación entre las variables, se dice que no hay correlación entre
ellas, es decir, no están correlacionadas.

3.3.5 EL MÉTODO DE MINIMOS CUADRADOS PARA AJUSTAR UNA


LÍNEA DE REGRESIÓN

Es el método más utilizado para ajustar una serie de observaciones a una ecuación,
minimizando el cuadrado de los desvíos, o sea, medir el error en la línea de estimación entre
los puntos estimados y observados.
La sumatoria del cuadrado de las diferencias entre los valores empíricos y teóricos
deben ser igual a un mínimo.

yˆ  b0  b1 X b1 
 YX  nX .Y b0  Y  b1 X
 X  nX
2 2

Y = variable dependiente
X = variable independiente e  Y  Yˆ
bo = coeficiente de intersección
b1 = coeficiente dependiente

3.4 ERROR ESTÁNDAR DE LA ESTIMA


Es una medida de dispersión alrededor de la recta de regresión.
El error típico de la estima tiene análogas propiedades a las de la desviación típica.
Por ejemplo, si se construyen rectas paralelas a la recta de regresión de Y sobre X a las
distancias verticales de Syx, 2Syx, 3Syx se encontrará alrededor del 68%, 95% y 99,7% de
los puntos muestrales.
Representa una medida de la variación alrededor de la línea de regresión ajustada. Del
modo que la desviación standard midió la variabilidad alrededor de la media aritmética, el
error típico o standard de la estima, mide la variabilidad alrededor de la línea de regresión
ajustada.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 19

3.5 RESIDUALES
Es la diferencia entre el valor observado Y y el valor ajustado.

Coeficiente de regresión
Indica la variación de la variable dependiente Y, por cada variación en una unidad de
la variable independiente X
Cuando estamos seguros que existe un alto grado de asociación entre dos variables,
sea porque lo conozcamos por experiencia o porque así lo indique el coeficiente de
correlación previamente calculado, el análisis se encamina a cuantificar la relación
existente, con el fin de predecir cuáles serán los valores de una variable, cuando se conocen
los valores de otra. En este caso se trata de un problema de regresión y la medida utilizada
es el coeficiente de regresión (b1 )
Por ejemplo si b1= 0,90 quiere decir que por cada aumento de 1 en la variable
independiente, hay un aumento de 0,90 en la variable dependiente.
El coeficiente de regresión con valor positivo, significa que ambas variables aumentan
o disminuyen a la vez; si es negativo, quiere decir que cuando una variable aumenta,
la otra disminuye, o viceversa: si fuera 0 (cero) tendríamos que para cualquier valor de
la escala independiente habría siempre el mismo valor en la escala dependiente.
Limitaciones, el calculo del coeficiente de regresión debe hacerse cuando el gráfico
correspondiente señala que la relación estudiada es lineal. Si no se llena esta condición
su cálculo no tiene ningún significado.
No puede aplicarse para predecir valores que excedan los límites de la serie en donde
fue calculado.
Téngase presente que b1 no es una medida de la intensidad de la asociación que existe
entre dos variables. Si por eje. Su valor es 900 en lugar de 0,90 , esto no significa que en el
primer caso la asociación sea 1000 veces mayor que en el segundo caso. El valor depende
de las unidades de medición que se empleen.

3.6 MEDIDAS DE VARIACIÓN EN REGRESIÓN Y


CORRELACIÓN
Variación total o suma total de cuadrados: es una medida de la variación de los
valores de Y alrededor de su media. En un análisis de regresión la variación total se puede
dividir en variación explicada y variación no explicada o suma de los cuadrados del error.
La variación explicada representa la sumatoria del cuadrado de las diferencias entre el
valor estimado de Y (Yˆ ) y la media de Y Y 

La variación no explicada representa la sumatoria del cuadrado de las diferencias entre


los valores de Y y los valores estimados (Yˆ )

3.7 COEFICIENTE DE DETERMINACIÓN (r²)


Mide la proporción de variación de Y (Variable dependiente) que se explica con la
línea estimada, por su relación con X (Variable independiente).
Si todas las observaciones coincidieran con la línea de regresión, obtendríamos un
ajuste “perfecto”, lo que raras veces ocurre. Generalmente tienden a presentarse variación
residual ei positivos y negativos con la esperanza de que residuos localizados alrededor de la
línea de regresión sean lo más pequeños posibles. En este sentido, el coeficiente de
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 20

determinación r2 (para el caso de dos variables) o R2 (para regresión múltiple) es una medida
resumen que nos dice qué tan bien la línea de regresión muestral se ajusta a los datos.
Sus propiedades más importantes son:
1.- Es una cantidad no negativa.
2.- Sus límites son 0  r2  1. Un valor 1 denota un ajuste perfecto, mientras que un
valor cero nos dice que no existe relación alguna entre la variable dependiente y la(s)
variable(s) explicativa(s).

 Y  Y 
2


2 est

 Y  Y 
r 2

3.- Si la variación explicada fuese nula (0), r2 =0.


4.- Si la variación no explicada fuese nula, r2 = 1; es decir toda explicada.
Una cantidad estrechamente relacionada a r2 pero conceptualmente diferente es el
coeficiente de correlación, que es una medida del grado de asociación entre dos variables.
Ejemplo: Se tomó una muestra de 10 alumnos de la Carrera de Auditoria, quinto
semestre de la Universidad Americana, para obtener información sobre el número de horas
dedicada para el estudio de Estadística II para la primera evaluación, y las notas obtenidas
en esa evaluación. El resultado de la muestra es como sigue:

Hora de estudio(X): 10 8 9 11 13 15 12 14 10 9
Calificación (Y): 75 60 68 78 85 96 83 80 70 65

a) Determine la recta de Y respecto de X


b) Calcule el coeficiente de correlación
c) Estime la calificación cuando se emplea 15 horas de estudio
d) Calcule la variación total

Hora de Calificaci
Estudio ón X2 XY ( Y - Y)2 Y2
X Y
10 75 100 750 1 5625
8 60 64 480 256 3600
9 68 81 612 64 4624
11 78 121 858 4 6084
13 85 169 1105 81 7225
15 96 225 1440 400 9216
12 83 144 996 49 6889
14 80 196 1120 16 6400
10 70 100 700 36 4900
9 65 81 585 121 4225
111 760 1281 8646 1028 58788

a) Y = b0 + b1 X Y = 28,38 + 4,29X
b0 = 76- 4,29(11,1)=28,38 b1 = 8646 – 10(76)(11,1) = 4,29
1281 – 10(11,1)2
b) r = 10(8646) – 111(760)________________ = 0,94
10(1281) – (111)210(58788) – (760)2

c) Y = 28,38 + 4,29(15) = 92,73


Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 21

d) Y = Y = 760 = 76
n 10

 ( Y - Y)2 = 1028 Es la variación total

3.8 INFERENCIAS SOBRE LA PENDIENTE

Antes de utilizar la ecuación de regresión para realizar estimaciones o predicciones,


debe determinarse en primer lugar si de hecho, existe una relación entre las dos variables de
la población. Si no existe relación en la población, la pendiente de la línea de regresión
poblacional sería cero. Por ello, la hipótesis nula que se prueba es H0: 1 = 0.
Se prueba el valor hipotético de una pendiente calculando la estadística t y utilizando
n – 2 grados de libertad. Se pierden dos grados de libertad en el proceso de la inferencia
porque se incluyen en el análisis de regresión dos estimaciones de parámetros, b0 y b1 .

3.9 PREDICCIONES

Una importante utilidad de la regresión es la de realizar predicciones de la variable


dependiente, condicional a un valor fijo de la variable independiente.
Estamos interesados en dos problemas de predicción distintos:
a) Estimación de la esperanza condicional
b) Estimación del verdadero valor que se obtendrá para Yn+1

3.9.1 INTERVALOS DE CONFIANZA PARA LA MEDIA CONDICIONAL

La estimación por punto de la media condicional, es decir, el valor promedio de la


variable dependiente, dado un valor específico de X, es el valor de la línea de regresión Ŷ
Cuando se utiliza la ecuación de regresión para estimar la media condicional, el
símbolo apropiado para representarla es ˆ Yn 1   y  b0  b1 X n 1
ˆ
El intervalo de confianza para la media condicional está dada por:
Yˆn 1  t ( n 2 ) / 2 .S YˆX

3.9.2 INTERVALOS DE CONFIANZA PARA LAS PREDICCIONES

En un intervalo de predicción se estima un valor individual y es, por lo tanto, un


intervalo de probabilidad.
El error estándar completo para un intervalo de predicción se denomina error estándar
del pronóstico, e incluye la incertidumbre asociada con la dispersión vertical con respecto a
la línea de regresión y, además, la incertidumbre asociada con la posición del valor mismo
en la línea de regresión.
El intervalo de confianza para la media condicional está dada por:
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 22

Yˆn1  t ( n2) / 2 .S y ( siguiente)

3.10 REGRESIÓN Y CORRELACIÓN MÚLTIPLE


Tiene por objeto establecer la dependencia entre una variable que consideramos
dependiente y dos o más variables independientes.
La ecuación de un plano de regresión: Y = b0 + b1X1 + b2X2; b1 es la variación de Y
correspondiente a un aumento en una unidad de la variable X1, cuando se supone constante
X2, b2 es la variación de Y correspondiente a un aumento de una unidad de X2, cuando se
supone constante X1, b1 y b2 se llaman coeficientes de regresión parcial; son las tasas
promedio del crecimiento.
La correlación múltiple es de gran aplicación, por ejemplo, en Economía son
frecuentes los problemas en los que se tiene un fenómeno complejo ( la demanda de un
producto en los mercados de consumo) y se desea estudiar la interdependencia de este
fenómeno con otros (producción u oferta, precios, renta, precios de artículos competitivos,
etc.) Estos temas son motivo de la teoría llamada de los “modelos econométricos con
ecuaciones lineales”.

3.11 CORRELACIÓN MÚLTIPLE

El coeficiente R puede interpretarse, para el caso de dos variables independientes,


como una medida del grado de la relación entre las variables independientes consideradas
como grupo, y la variable dependiente. También R varia entre –1 y 1 correspondiendo los
valores extremos al caso en que todos los puntos se encuentran en el plano de regresión.

3.12 CORRELACIÓN PARCIAL

Trata de estudiar las relaciones de Y con una de las variables X1 o X2 suponiendo


que la restante variable permanezca constante. Por ejemplo, si Y fuera índice del valor de un
artículo, X1 índice de cantidad de demanda de ese artículo y X2 el índice del valor del signo
monetario. El problema de la correlación parcial consistiría en medir la relación entre Y y
X1 (precio y demanda), suponiendo que el valor del signo monetario permaneciera
constante. Otro problema del mismo tipo sería el de encontrar la relación entre el precio y la
variación del signo monetario, suponiendo la demanda constante.

3.13 ANÁLISIS DE VARIANZA EN REGRESIÓN LINEAL

Se les utiliza para probar la hipótesis nula de que no existe relación en la población,
entre las (diversas) variables independientes consideradas como grupo y la variable
dependiente. Se utilizan las pruebas F para probar la significancia del modelo global.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 23

Capítulo
4

ANÁLISIS DE SERIES CRONOLÓGICAS

OBJETO: es analizar el comportamiento de un atributo cuantitativo a través del


tiempo.
Estudia la variación de un fenómeno a través del tiempo.
El análisis de una serie cronológica puede tener por único propósito, describir la
marcha histórica de un fenómeno. Sin embargo habitualmente se persigue evaluar los
cambios ocurridos por la introducción de alguna actividad particular o resumir la evolución
de un fenómeno con miras a predecir su posible ocurrencia en el futuro.
El análisis de serie cronológica es el procedimiento por medio del cual se identifica y
separan los factores relacionados con tiempo que influyen sobre los valores observados en la
serie cronológica.
El propósito fundamental del análisis de las series de tiempo es el proveer al analista o
al empresario, de un método práctico de medir los cambios ocurridos en una empresa o
sector, a la vez que se analiza su relación con los de la economía en general. Las series de
tiempo que miden los cambios de una empresa en particular se obtienen de los archivos
internos de la compañía mientras que la información acerca de los cambios relativos a toda
la economía proviene de varias fuentes externas.

4.1 EL ENFOQUE CLÁSICO DEL ANÁLISIS DE SERIES


CRONOLÓGICAS IDENTIFICA CUATRO COMPONENTES
1.- TENDENCIA SECULAR: movimiento general a largo plazo en los valores de
series cronológicas en un período extenso de tiempo que refleja los efectos de fuerzas que
tienden hacia el crecimiento o la contracción graduales. Estas fuerzas operan a largo plazo y
no están sujetas a cambios bruscos de dirección.
La tendencia Secular o la tasa de crecimiento de una empresa o de una industria, se
basa primordialmente en el crecimiento poblacional y la tasa de crecimiento global de la
economía se refleja directamente en el crecimiento de la población. A menos que se acepte
una reducción en el nivel de vida, el crecimiento poblacional expande los mercados para
toda clase de mercaderías. A través de la historia, lo común ha sido que el crecimiento
poblacional esté acompañado por aumentos en la producción per capita de bienes y
servicios, con el resultado de que el crecimiento industrial haya sido mayor que el
crecimiento poblacional.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 24

El crecimiento industrial implica que las industrias y las empresas individuales han
crecido, aunque la tasa de crecimiento ha variado grandemente de una a otra. Las fibras y
otras materias sintéticas, los equipos domésticos, los automóviles y la televisión son
ejemplos típicos de industrias con un crecimiento acelerado. Algunas industrias nuevas
desplazan a industrias establecidas, mientras que otras añaden su producción al total sin que
reemplacen a ningún otro producto. Por ejemplo las fibras sintéticas ha reemplazado a casi
toda la seda en el consumo y están sustituyendo rápidamente al algodón en muchos de sus
usos.
El carácter cambiante de la industria moderna hace inevitable que, mientras algunas
empresas o industrias crecen, otras declinen. En tanto que las inversiones producen nuevos
productos, o nuevas técnicas de producción es de esperarse que algunas industrias y
empresas florezcan. En tanto que patrones de consumo cambian, es de esperarse que ciertas
industrias declinen. Cualquier análisis de series de tiempo tiene que tomar en consideración
los cambios de este tipo.
La tendencia secular está presente tanto en las series de precios como en las de
volumen físico. Los precios de las mercancías tienden a bajar a medida que se desarrollan
técnicas más económicas de producción. Si por otra parte la producción de algún artículo
depende de la oferta de materias primas que, gradualmente, se van haciendo más escasas,
entonces el precio puede mostrar una tendencia secular hacia el aumento. Los movimientos
de largo plazo en el nivel general de precios tienen las características de una tendencia
secular, aunque sus movimientos tienen también muchas de las características de las
fluctuaciones cíclicas.
Como el análisis de tendencia se ocupa de la dirección del movimiento de la serie de
tiempo a largo plazo, es común que esos análisis se lleven a cabo analizando datos anuales.
Por lo general, se deben utilizar datos de cuando menos 15 o 20 años, para no incluir como
señal de la tendencia global de la serie de tiempo los movimientos cíclicos que implican
pocos años de duración.
El método de mínimos cuadrados es la base más común que se utiliza para identificar
el componente de tendencia de tiempo, determinando la ecuación que mejor se ajuste a la
línea de tendencia. Debe observarse que, en términos estadísticos, una línea de tendencia no
es una línea de regresión porque la variable dependiente Y no es una variable aleatoria, sino
que más bien es un valor histórico acumulado. Además, sólo puede haber un valor histórico
para cualquier periodo de tiempo determinado (no una distribución de valores) y los valores
asociados con periodos de tiempo adyacentes son dependientes. No obstante, el método de
mínimos cuadrados es una base conveniente para determinar el componente de la tendencia
de una serie de tiempo. Cuando parece que el aumento o la disminución a largo plazo sigue
una tendencia lineal, la ecuación para los valores de la línea de tendencia, utilizando X para
representar el año, es: YT = b0 + b1X
El componente b0 representa el punto de intersección de la línea de tendencia con el
eje Y, mientras que b1 representa la pendiente de la línea de tendencia.
Puede observarse que muchas series de tiempo que representan las ventas de
productos presentan tres etapas: una etapa introductora de crecimiento lento en las ventas,
una etapa intermedia de rápidos aumentos en las ventas y una etapa final de crecimiento
lento al saturarse el mercado. Este conjunto de tres etapas puede abarcar muchos años para
algunos productos, tales como acero estructural. Para otros productos, tales como radio de la
banda civil, la etapa de saturación puede alcanzarse con relativa rapidez. La curva de
tendencia específica que incluye las tres etapas que se acaban de describir es la curva de
Gompertz. La ecuación para la curva de tendencia de Gompertz es YT = b0 b1 (b2)x

Los valores de b0 b1 y b2 se determinan obteniendo en primer lugar el logaritmo de


ambos lados de la ecuación, de la siguiente manera: log YT = log b0 + bx2 (log b1)
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 25

Finalmente, los valores de la curva de tendencia se calculan obteniendo los


antilogaritmos de los valores calculados. Los detalles de esos cálculos se incluyen en libros
especializados en análisis de series de tiempo.
2.- VARIACIÓN ESTACIONAL: está constituida por cambios periódicos que ocurren
a través del año. Dichas variaciones se identifican generalmente con base en datos
mensuales o trimestrales.
Los cambios de las actividades económicas y comerciales que surgen como
consecuencia de cambios estacionales son muy periódicos y reflejan cambios en la
producción industrial, la producción agrícola, el consumo y los precios. Los precios y la
producción de mercaderías agrícolas están influenciados por el hecho de que la producción
obedece a un ciclo anual, mientras que el consumo se distribuye a través de todo el año.
Los hábitos de consumo también varían a través de las diferentes épocas del año.
Durante la temporada de lluvia aumentan las ventas de paraguas. Durante los meses de
verano aumentan las ventas de helados y gaseosas.
Las costumbres sociales también determinan el periodo del año en que se compra
ciertos artículos creando así patrones estacionales que son independientes del clima.
Durante el periodo navideño aumenta las ventas de sidras, pan dulces, regalos, otros
artículos de la época; el día de los niños provoca un aumento en las ventas de juguetes.
Estas fluctuaciones periódicas en los patrones de compra de los consumidores hace
que las ventas de los detallistas se distribuyan en forma desigual a través del año, lo cual a
su vez afecta los patrones de las ventas de los distribuidores y productores. Puesto que
muchos fabricantes solamente producen cuando tienen aseguradas las ventas de sus
artículos, estos patrones de compra causan fluctuaciones periódicas en los índices de
producción.
Así, entonces este patrón estacional también refleja en las compras de materiales y de
equipo, así como en el empleo de la mano de obra.
Existen otras fluctuaciones periódicas en la actividad económica, además de aquellas
causadas por las épocas del año. El número de llamadas telefónicas varía en forma regular
con la hora del día. Esta variación es tan pronunciada que las tarifas telefónicas varían con
la hora del día, cobrándose menos durante las horas de menor actividad (de lunes a viernes
de 20:00 a 7:00 horas del día siguiente; sábado desde las 12:00 horas domingos y feriados
nacionales), para promover que se efectúen más llamadas durante estas horas.
Muchos comercios muestran grandes variaciones en sus volúmenes de ventas durante
los diferentes días de la semana. Todas estas fluctuaciones periódicas pueden ser analizadas
de la misma forma, tratándolas como variaciones estacionales y usando la unidad de tiempo
adecuada: día, semana, mes o cualquier otro período de tiempo menor que el año.

3.- VARIACIÓN CÍCLICA: Las fluctuaciones cíclicas son cambios recurrentes que no
necesariamente ocurren en períodos fijos.
Estas fluctuaciones se distinguen de las variaciones estacionales porque el periodo del
cambio no es fijo a pesar de que son cambios recurrentes. Este fenómeno es el ciclo
económico.
En muchos aspectos las fluctuaciones cíclicas en las series de tiempo representan el
tipo más importante de variación, ya que ellas no ocurren en períodos fijos.
Esto las hace mucho más difíciles de prever que las variaciones que ocurren con las
épocas del tiempo, tales como las variaciones estacionales. Las variaciones cíclicas se puede
describir como ondas de expansión y contracción que ocurren aproximadamente en el
mismo momento en muchas actividades económicas.
En la economía, un ciclo es gráficamente una onda compuesta por cuatro partes:
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 26

Prosperidad
Descenso

Crisis

Recuperación
Depresión

4.- FLUCTUACIONES ALEATORIAS O ERRÁTICAS: son pequeñas variaciones de


naturaleza básicamente aleatoria, y que son causadas por un gran número de factores, siendo
la mayor parte de estos de muy poca importancia relativa cuando se consideran
aisladamente.
En casi toda empresa comercial o actividad económica, las ventas varían de un día a
otro a causa de factores enteramente fortuitos. Por ejemplo el estado del tiempo puede
afectar el nivel que alcanzan las ventas de una tienda por departamento en un día dado. Una
empresa que vende al por mayor puede que no tenga ventas durante algunos días, mientras
que los otros días goce de grandes ventas, sin que exista otra razón que la pura casualidad de
que las órdenes de compras se hayan entregado en un día dado en vez de en otro.
Cuando los datos acerca de las ventas o la producción se clasifican por día es de
esperar que los valores correspondientes a los diferentes días muestren los efectos de tales
irregularidades. Si los días se juntan para hacer una clasificación semanal, entonces estas
irregularidades tenderán a hacerse menos pronunciadas. Mientras mayor sea el período de
tiempo, mayor será la tendencia a que se suavice estas fluctuaciones irregulares.
A medida que los empresarios han estado tratando de tener un control mayor sobre sus
empresas han estado haciendo uso de la información estadística clasificada en intervalos de
tiempo cada vez más cortos. Los datos anuales ahora se consideran inadecuados. Ya no se
consideran las divisiones anuales o trimestrales como las mejores divisiones posibles, cada
vez más se están recogiendo datos en forma mensual, semanal, y aún diario. A medida que
se acortan los intervalos de tiempo que se utilizan para clasificar datos que sean valores
absolutos, mayor es la tendencia a que las fluctuaciones erráticas influencie las series
cronológicas.

RESUMEN
Componentes:
1.- Tendencia Secular (Sistemático).
2.- Variación Estacional (Sistemático).
3.- Variación Cíclica (Sistemático).
4.- Variación Residual Aleatoria (No Sistemático).

1.- Tendencia Secular (T): Es el movimiento de largo plazo que refleja los efectos de
fuerza que tienden hacia el crecimiento o contracción graduales. Estas fuerzas operan a
largo plazo y no están sujetas a cambios bruscos de dirección.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 27

Tendencia (T): el movimiento global a largo plazo de los valores de la serie de


tiempo (Y) durante un número prolongado de años.

2.-Variación Estacional (E): Está constituida por cambios periódicos que ocurren a
través del año.
Movimientos hacia arriba y hacia abajo con respecto a la tendencia y que no duran
más de un año y que, además, se presentan todos los años. Es común que se identifiquen
esas variaciones con base en datos mensuales o trimestrales.

3.- Variación Cíclica(C): Son cambios recurrentes que no necesariamente ocurren en


períodos fijos. Estas fluctuaciones se distinguen de las variaciones estacionales porque el
periodo de cambio no es fijo, a pesar de que son cambios recurrentes, pero no periódicos.
Este fenómeno es el ciclo económico.
Movimientos recurrentes hacia arriba y hacia abajo con respecto a la tendencia y que
tienen duración de varios años.

4.-Variación Residual Aleatoria o Irregulares (I): Son variaciones de naturaleza


básicamente aleatoria, y que son causadas por gran número de factores, siendo la mayor
parte de éstos de muy poca importancia relativa cuando se consideran aisladamente.
Las variaciones erráticas con respecto a la tendencia, que no pueden adjudicarse a
efectos estaciones o cíclicos.
El modelo en el que se basa el análisis clásico de series de tiempo se apoya en la
suposición de que, para cualquier periodo de la serie de tiempo, el valor de la variable está
determinado por el efecto de los cuatro componentes que se definieron antes, y además, que
los componentes tienen una relación multiplicativa. Por ello, Y representa el valor
observado de la serie de tiempo. Y=TxCxExI
De forma alternativa, en algunas circunstancias será más apropiado pensar en la serie
como en la suma de sus componentes a través del modelo aditivo: Y = T + C + E + I
El modelo que se representa mediante la fórmula, se utiliza como base para separar
los efectos de los diversos componentes que influyen sobre los valores de la serie de tiempo.

4.1.1 ESTIMACIÓN DE LA TENDENCIA

(a) MÉTODO DE LA SEMIMEDIAS


Consiste en agrupar los datos en dos partes (preferentemente iguales) y mediar los
datos de cada parte, así, se obtienen dos puntos en el gráfico de la serie de tiempo. Una recta
de tendencia puede entonces trazarse entre estos dos puntos y los valores de tendencia
pueden así determinarse. Los valores de tendencia pueden también determinarse
directamente sin necesidad de un gráfico. Es aplicable solamente cuando la tendencia es
lineal o aproximadamente lineal, aunque puede extenderse su aplicación a casos en los que
los datos pueden ser divididos en varias partes, teniendo cada una de ellas una tendencia
lineal.

b
S1
a

Y 2 Y1  Y1  1
S
Y2  2
S
n1 n n1 n2
S1= suma de los valores de Yt de la primera mitad del período. . . S1='Yt
S2= suma de los valores de Yt de la segunda mitad del período. . . S2="Yt
n1= número de años primera mitad del período.
n2= número de años segunda mitad del período.
n = número de años transcurrido desde la mitad del primer período hasta la
mitad del segundo período.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 28

Y1= Promedio de la primera mitad del período.


Y2= Promedio de la segunda mitad del período.

Y= aX + b

(b) MOVIMIENTO MEDIO O PROMEDIOS MÓVILES

Mediante el uso de medias móviles de órdenes apropiados, puede eliminarse los


movimientos cíclicos, estacionales e irregulares, quedando así solamente el movimiento de
tendencia.
Un inconveniente de éste método es que los datos del principio y final de la serie se
pierden. Otro inconveniente es que las medias móviles pueden originar ciclos u otros
movimientos que no tenían los datos originales. Un tercer inconveniente es que las medias
móviles están fuertemente afectados por los valores extremos. Para reducir en parte estos
inconvenientes, se utiliza a veces una media móvil ponderada, con pesos adecuados. En tal
caso, el término (o términos) central recibe el peso mayor y los valores extremos los pesos
pequeños.

(c) MÍNIMOS CUADRADOS

La sumatoria del cuadrado de las diferencias entre los valores empíricos y los valores
ajustados (teóricos), debe ser igual a un mínimo.

(d) MÉTODO LIBRE

Consiste en ajustar una recta o curva de tendencia mediante la sola observación del
gráfico. Sin embargo, estos tienen el inconveniente de depender en gran parte del criterio
personal.

4.1.2 ESTIMACIÓN DE VARIACIONES ESTACIONALES E ÍNDICE


ESTACIONAL

Un conjunto de números mostrando los valores relativos de una variable durante los
meses del año se llama índice estacional de la variable. Si, por ejemplo se sabe que las
ventas durante enero, febrero, marzo, etc., son 50, 120, 90.... por ciento de la venta media
mensual del año completo, los números 50, 120, 90... suministran el índice estacional del
año y a veces se conocen como números del índice estacional. El promedio (media) del
índice estacional para el año completo deberá ser del 100%, es decir, la suma de los
números deberá ser 1.200%.
Varios son los métodos que se utilizan para el cálculo de índice estacional: método
del porcentaje medio, método de porcentaje de tendencia o razón de tendencia, método del
porcentaje del movimiento medio o razón del movimiento medio, método de enlaces
relativos.
Si los datos originales mensuales se dividen por los correspondientes números del
índice estacional, los datos resultantes se dicen desestacionalizados o ajustables para la
variación estacional. Tales datos incluyen aún, movimientos de tendencia, cíclicos e
irregulares.

4.2. PRONÓSTICOS CÍCLICOS E INDICADORES DE NEGOCIOS


Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 29

Los pronósticos que se basan en los componentes de tendencia o estacional de una


serie de tiempo se consideran solo como el punto inicial de los pronósticos económicos. Una
razón de esto es la necesidad de considerar el efecto probable del componente cíclico
durante el periodo pronosticado, en tanto que una segunda razón es la importancia de
identificar los factores causales específicos que han influido sobre las variables de la serie
de tiempo.
Para los pronósticos a corto plazo, con frecuencia se supone que el efecto del
componente cíclico es igual que el que se ha dado en los valores recientes de la serie de
tiempo. Sin embargo, en periodos más prolongados, o aun para periodos breves de
inestabilidad económica, resulta importante identificar los puntos cíclicos de cambio de la
economía nacional. Por supuesto, las variaciones cíclicas asociadas con un producto
determinado pueden o no coincidir con el ciclo general de negocios.

Ejemplo: Históricamente, las ventas de automóviles han coincidido en forma estrecha con
el ciclo general de negocios de la economía nacional. Por otro lado, las ventas de
refacciones para automóviles tienden a ser contra cíclicas con respecto al ciclo
global de negocios.
Se han identificado diversas series de tiempo que, históricamente han resultado ser
indicadores de resurgimiento y recesiones cíclicas con respecto al ciclo global de negocios.
Un grupo de estos, a los que se denomina indicadores líder, por lo general llegan a los
puntos cíclicos de cambio antes del cambio correspondiente en al actividad económica
general. Los indicadores líder incluyen medidas como la tasa de desempleo en manufactura,
el valor de los pedidos nuevos en las industrias de los bienes duraderos, y un índice de
precios y cotizaciones del mercado bursátil. Un segundo grupo, al que se denomina
indicadores coincidentes, son series de tiempo que por lo general han tenido puntos de
cambio que coinciden con el ciclo general de negocios. Los indicadores coincidentes
incluyen medidas como la tasa de desempleo y el índice de producción industrial. El tercer
grupo, al que se denomina indicadores rezagados, son las series de tiempo para las cuales las
cumbres y los valles generalmente se retrasan con respecto al ciclo general de negocios. Los
indicadores rezagados incluyen medidas como la manufactura y los inventarios comerciales,
y las tasas preferenciales promedio que indican los bancos.
Además de considerar el efecto de las fluctuaciones cíclicas y de pronosticar esas
fluctuaciones, también deben estudiarse las variables causales específicas que
históricamente han influido sobre los valores de la serie de tiempo. Los análisis de regresión
y de correlación son particularmente aplicables a estudios como la relación entre la
estrategia del precio y el volumen de ventas. Aparte de los análisis históricos, otras áreas
que requieren atención son las posibles implicaciones de productos nuevos y los cambios en
el ambiente del mercado.

PREDICCIÓN: consiste en obtener los valores posteriores para la serie analizada


proyectando a través de la recta estimada.

Ejemplo sobre estimación de la tendencia por mínimos cuadrados


La tabla a continuación muestra los índices de precios al consumidor proporcionado
por el Banco Central del Paraguay durante los años 1992 a 2000.

Años: 1992 1993 1994 1995 1996 1997 1998 1999 2000
IPC: 100.0 118.2 144.8 164.2 180.3 195.1 220.3 248.1 260.0
a) Efectué el gráfico del diagrama de dispersión
b) Determine la función más conveniente por mínimos cuadrados
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 30

c) Estime el IPC para el año 2001


d) Efectúe el gráfico de la función hallada

Años IPC(Y) X X2 XY
1992 100.0 -4 16 -400.0
1993 118.2 -3 9 -354.6
1994 144.8 -2 4 -289.6
1995 164.2 -1 1 -164.2
1996 180.3 0 0 0.0
1997 195.1 1 1 195.1
1998 220.3 2 4 440.6
1999 248.1 3 9 744.3
2000 260.0 4 16 1040.0
1631 0 60 1211.6

b) YT = b0 + b1X YT = 20,19 X + 181,22

b1 = XY = 1211.6 = 20,19 b0 = Y = 1631 = 181, 22


X2 60 n 9
c) Y = 20,19(5) + 181,22 = 282,17
a) Diagrama de dispersión

300,0
250,0
200,0
150,0
100,0
50,0
0,0
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Años

4.3. RESUMEN APLICADO AL ANÁLISIS DE SERIE DE TIEMPO


1.- Coleccionar los datos de la serie de tiempo, procurando asegurarse de que estos
datos sean dignos de confianza. En la colección de datos se debe siempre tener presente el
propósito que se persigue en cada caso con el análisis de la serie de tiempo. Por ejemplo, si
se desea predecir sobre una serie de tiempo dada, puede servir de ayuda el obtener series
afines, así como otra posible información. Si es necesario ajustar los datos para poderlos
comparar, es decir, ajustar para años bisiestos, etc.
2.- Representar la serie de tiempo, anotando cualitativamente la presencia de
tendencia de larga duración, variaciones cíclicas y variaciones estacionales.
3.- Construir la curva o recta de tendencia de larga duración y obtener los valores de
tendencia apropiados mediante cualquiera de los métodos, de mínimos cuadrados, libre,
medias móviles o semimedias.
4.- Si están presentes variaciones estacionales, obtener un índice estacional y ajustar
los datos a estas variaciones estacionales, es decir, desestacionalizar los datos.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 31

5.- Ajustar los datos desestacionalizados a la tendencia. Los datos resultantes


contienen (teóricamente) solamente las variaciones cíclicas e irregulares. Un movimiento
medio de 3, 5 o 7 meses sirve para eliminar las variaciones irregulares y poner de manifiesto
las variaciones cíclicas.
6.- Representar las variaciones cíclicas obtenidas en el paso 5, anotando cualquier
periodicidad (o periodicidad aproximada) que pueda aparecer.
7.- Combinando los resultados de los pasos 1-6 y con cualquier otro tipo de
información útil, hacer una predicción (si se desea) y si es posible discutir las fuentes de
error y su magnitud.

4.4. EXTRACCION DE LA COMPONENTE ESTACIONAL A TRAVÉS


DE LAS MEDIAS MÓVILES

La componente estacional podría ser una molestia y el analista podría querer


eliminarla de la serie para obtener una mejor apreciación del comportamiento de las otras
componentes.
El método mas apropiado para este objetivo es el de promedios móviles
Pasos a seguir:
 Calculo de medias móviles
 Calculo de (Xt/X*t) influencia de la estacionalidad
 Calculo de la mediana correspondiente a cada trimestre
 Calculo del índice estacional: Mediana de cada trimestre(400/Suma de las
medianas)
 Calculo de la serie estacional ajustada: Valor ajustado = (Valor original/Indice
estacional).100

4.5. SUAVIZADO EXPONENCIAL

Nuestro propósito será utilizar las observaciones disponibles, para predecir los valores
futuros desconocidos. La predicción es de crucial importancia en los entornos económicos
al ser considerada base racional para las decisiones de mercado. Por ejemplo, predecir las
ganancias futuras de una compañía, se utiliza cuando se quieren realizar decisiones de
inversión.
En el caso de tendencias no lineales, con frecuencia se utilizn dos tipos de curvas de
tendencia para realizar el análisis: la curva de tendencia exponencial y la curva de la
tendencia parabólica. Una curva de tendencia exponencial típica es aquella que refleja una
tasa constante de crecimiento durante un período de años. A las curvas exponenciales se les
denomina de esa manera porque la variable independiente X es el exponente de b1 en la
ecuaación general: YT = b0 b1X
Al aplicar logaritmo en ambos lados, se obtiene una ecuación lineal de tendencia
logarítmica. Log YT = log b0 + X.log b1

4.6. MODELO DE HOLT-WINTERS COMO SUAVIZADO


EXPONENCIAL PARA LA PREDICCIÓN

El objetivo de este método es permitir la presencia de tendencia e incluso de


estacionalidad en la serie temporal. Aquí, el objetivo no es sólo la estimación del nivel
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 32

actual de la serie, sino también de su tendencia, donde, para este propósito, la tendencia
puede ser considerada como la diferencia entre el nivel actual y el nivel precedente.
Las dos ecuaciones de estimación son:
Xt = A(Xt-1+ Tt-1) + (1 – A)Xt (0 < A < 1)
Tt = BTt – 1 + (1 – B)( Xt - Xt-1) (0 < B < 1)
Donde A y B son las constantes de suaviazación cuyos valores se encuentran entre 0
y 1.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 33

Capítulo
5

NUMERO ÍNDICE
CONCEPTO: un número índice es una medida estadística para mostrar los cambios en
una variable o un grupo de variables relacionadas con respecto al tiempo, situación
geográfica u otra característica, como renta, profesión etc.
El objeto de los números índices es poner de manifiesto, en forma cuantitativa, las
variaciones de un fenómeno o atributo complejo a través del tiempo, de una variación de
lugar o de otra circunstancia.
Los números índices miden el tamaño ò la magnitud de algún objeto en un punto
determinado en el tiempo, como el porcentaje de una base o referencia en el pasado.

5.1. ÍNDICES SIMPLES

Son los índices sin ponderación. Solamente podrá usarse excepcionalmente, pues al no
aplicar ponderaciones está sujeto a errores si no hay homogeneidad en la importancia de los
distintos artículos y en las unidades.

5.2 ÍNDICES PONDERADOS

Al formar el promedio, nos encontramos con que los ítem (artículos, objetos o
individuos) que se utilizan en la formación del promedio, no tiene siempre la misma
importancia ni están dados en las mismas unidades. Se hace necesario, en general, efectuar
una ponderación de los valores originales, multiplicando cada uno de ellos por un número
que refleje su importancia relativa; el índice resultará así un promedio ponderado.

5.3 CAMBIO DEL PERIODO BASE EN LOS NÚMEROS ÍNDICES


En la práctica es deseable que el período base elegido con propósitos de comparación
sea un período de estabilidad económica, que no sea muy anterior al momento actual. De
vez en cuando, es conveniente cambiar este período base.
Una posibilidad es volver a calcular todos los números índices con el nuevo período
base.
Un método de aproximación más sencillo es dividir todos los números índices para los
diferentes años correspondientes al período base antigua por el número índice

I antiguo
I nuevo  .100
I base deseada
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 34

correspondiente al nuevo período base, expresando los resultados como porcentajes. Estos
resultados representan los nuevos números índices siendo 100 %, el número índice para el
nuevo período base.

5.4 DEFLACIÓN DE SERIES TEMPORALES

Aunque los ingresos de los individuos pueden elevarse teóricamente en un período de


años, su ingreso real puede, ser ciertamente inferior debido al incremento del coste de vida y
decrecer por consiguiente su poder de adquisición. Estas rentas reales pueden obtenerse
dividiendo el ingreso aparente o físico para los diferentes años por el coste de vida o
números índices del consumidor para estos años, utilizando un período base apropiado Por
ejemplo, si el ingreso de un individuo en el año 2002 es el 170% de su ingreso en 1999, (es
decir, ha aumentado en 70%), mientras que el índice del coste de vida se ha doblado en el
mismo período, la renta real del individuo en 2002 es solamente: 170/2=85% de la renta en
1999.
Los valores de una serie de tiempo sólo pueden compararse entre sí, si están
expresados en valores constantes. Para convertir valores corrientes en valores constantes, es
preciso utilizar un “deflactor”, siendo el Índice de Precio del Consumo (IPC) uno de los más
usados para medir la desvalorización de la moneda (por inflación).
Existen otros índices, como Índice de Precio al por Mayor (IPM), Índice de Precio de
la Construcción, entre otros, que pueden ser utilizados de acuerdo al rubro, cuyos valores se
están analizando.

5.5 EL ÍNDICE DE PRECIOS AL CONSUMIDOR O ÍNDICE DEL


COSTO DE VIDA

Este índice mide los cambios promedio en los precios de una "canasta de mercado" de
bienes y servicios de un período a otro. Se tiene una lista base de bienes y servicios sobre
los cuales se basan los cálculos; utilizado para medir cómo afectan las variaciones de
precios a los gastos de las familias.
Para ello se consideran los precios de las mercaderías consumidas (alimentos,
vestimenta, habitación, medicamentos, artículos de limpieza, etc.) y los servicios utilizados
(transportes, agua, luz, educación, etc.) por una familia típica.

5.6 USO DEL ÍNDICE DE PRECIOS AL CONSUMIDOR


Básicamente el índice tiene tres usos importantes:
1.- Como dispositivo automático de ajuste de salarios.
2.- Como indicador económico.
3.- Como índice de deflación de precios

5.6.1 COMO DISPOSITIVO AUTOMÁTICO DE AJUSTE DE SALARIOS

El índice de precio al consumidor fue creado en 1919 para poder tomar en cuenta los
efectos de las tendencias inflacionarias resultantes de la primera guerra mundial. Más tarde
el índice se ha vinculado a numerosos planes de pensiones y cláusulas de ajustes a los
salarios. El índice ha sido aceptado por el público como una medida del "costo de la vida".
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 35

5.6.2 COMO INDICADOR ECONÓMICO

Se le observa estrechamente como una medida del éxito o el fracaso de la política


económica del gobierno y, en este sentido, lo utilizan tanto los negocios, como los
individuos como una pauta para tomar decisiones económicas.

5.6.3 COMO ÍNDICE DE DEFLACIÓN DE PRECIOS

Cuando se utilizan para propósitos de predicción, se relacionan con salarios reales, el


índice de precios al consumidor se suele usar para ajustar los salarios nominales (guaraníes
actuales) a salarios reales (en guaraníes constantes del año base) realizando ajustes por los
cambios en el costo de la vida.
Salariosnominales
SalariosRe ales (constante)  .100
Indice de Pr ecios al consumidor

5.7 ÍNDICE DE PRECIOS


Reflejan el cambio porcentual en el precio de algún objeto de comercio (ó grupo de
bienes) en un determinado período, con relación al precio pagado por ese bien en un punto
determinado de tiempo en el pasado.

5.8 SELECCIÓN DEL PERIODO BASE PARA UN ÍNDICE DE


PRECIOS
El período base ó punto de referencia, es el año ó el período en el pasado, contra el
cual se realizan todas estas comparaciones. Al seleccionar el período base para un índice
en particular se deben observar dos reglas: a) el período seleccionado debe ser en cuanto sea
posible, de normalidad ó estabilidad económica, no uno que se encuentre o en el punto
máximo de una economía en expansión, ó en el punto de una recesión ó economía en
declinación; b) el período base debe ser reciente, para que las comparaciones no resulten
afectadas indebidamente por cambios en la tecnología, calidad del producto y/o cambios de
actitud, interés, gustos y hábitos de los consumidores.

5.9 CAMBIO DE BASE DE UN ÍNDICE DE PRECIOS

Al estudiar los números índices, interesa comparar el valor actual del índice con algún
período base ó punto de referencia. No obstante es difícil relacionar comparaciones de
precios con puntos de referencia demasiado distantes en un período lejano. En tales
circunstancias lo deseable es sustituir el período base. Además el encargado de tomar
decisiones con frecuencia tiene que comparar dos series de números índices, cada uno de
ellos con puntos de referencia diferentes. En estos casos también es posible sustituir el
período base de una de las series para igualar los de otras series.
Para sustituir la base tan solo se divide cada número índice en la serie por el valor del
número índice en el nuevo período base que se desea, que después se multiplica por 100

I antiguuo
I nuevo  .100
I basedeseada
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 36

5.10 FORMACIÓN DE UN ÍNDICE DE PRECIOS PARA UN


GRUPO DE ARTÍCULOS

Aunque pueda resultar de interés un índice de precio para cualquier artículo, por lo
general no se considera importante para la mayor parte de toma de decisiones. Lo
importante es un índice que abarque un grupo de artículos tomados en conjunto que puedan
afectar la calidad de vida de un gran número de consumidores. Se pueden considerar dos de
estos tipos de índices de precios relacionados con un grupo de artículos: Los índices de
precios agregados simples y los índices de precios agregados ponderados.

(a) ÍNDICE DE PRECIOS AGREGADO SIMPLE un índice de precios agregado


representa los cambios en precios, con el transcurso del tiempo, para todo un grupo de
artículos. Un índice así, tiene dos claras desventajas. Primera: el índice considera
igualmente importante cada artículo del grupo y por consiguiente permite que los artículos
más caros por unidad tengan una influencia excesiva. Segunda: cualquier cambio en la
unidad de medida de cualquier artículo altera el valor del índice (por ejemplo, el precio del
atún se podría expresar en centavos por kilogramo, mientras el de los demás pescados se
expresa en libras)

(b) ÍNDICE DE PRECIOS AGREGADO PONDERADO: al construir el índice de


precios parece razonable mantener constantes los pesos al paso del tiempo para que se
puedan aislar los cambios atribuibles a movimientos en los precios. Es obvio que si varían
tanto los precios como las cantidades, no sería posible aislar las fluctuaciones en precios.
Las principales ventajas de éste índice de pesos fijos son: que evita la predisposición
parcial hacia los precios y permite una comparación directa de los movimientos de los
precios de un período con otro, además de comparar cada periodo con la base

5.11 ELABORACIÓN DEL INDICE DE PRECIOS AL


CONSUMIDOR. ÍNDICE DE PESOS FIJOS “LASPEYRES”

I
 tX . W .100
i 0 i

 X .W.
0 i 0 i

Al construir el índice de precios parece razonable mantener constantes los pesos o


cantidad al paso del tiempo para que se puedan aislar los cambios atribuibles a
movimientos en los precios. Es obvio que si varían tanto los precios como las cantidades, no
sería posible aislar las fluctuaciones en precios. El índice que se obtiene se denomina Índice
de precios agregado ponderado de pesos fijos.

5.12 COMPONENTES DEL ÍNDICE DE PRECIOS AL


CONSUMIDOR
Ejemplo
1.- Alimentos y bebidas 19,6%
2.- Viviendas 40 %
3.- Transportes 20,9 %
4.- Ropa y mantenimiento 6,5 %
5.- Atención medica 33,9 %
6.- Entretenimiento 4,1 %
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 37

7.- Otros Bienes y servicios 5,0 %


--------
100%
La importancia relativa de los componentes depende de cada país, pudiendo haber
otros componentes

Ejemplo 1: Dada la siguiente tabla, que muestra los precios y cantidades de cinco
productos de primera necesidad en los meses de febrero y junio del presente año, calcular
los siguientes índices, para junio/14 tomando como base febrero/14:
a) Índice agregativo simple de precio y cantidad: (I1 )
b) Índice promedio aritmético de relativos de precio y cantidad (I2 )
c) Índice promedio geométrico de relativos de precio y cantidad: (I3 )
d) Índice mediana de relativos de precio y cantidad: (I4 )
e) Índice de precio y cantidad de Laspeyres: (I7 )
f) Índice de precio y cantidad de Paasche: (I8 )
g) Índice de precio y cantidad de Fischer o Ideal: (I9 )

Productos Febrero/14 Junio/14


Precio(p0) Cantidad(q0) Precio (pi) Cantidad(qi)
Cebolla (kg) 1.600 45.000 750 50.000
Locote (kg) 2.800 15.000 1.200 25.000
Zanahoria (kg) 2.900 70.000 750 80.000
Papa (kg) 1.200 135.000 480 150.000
Tomate (kg) 3.200 48.000 930 60.000
Total 11.700 313.000 4.110 365.000

pi /p0 Ordenado qi /q0 Ordenado pi.qi p0.qi p0.q0 pi.q0


0.4688 0.2586 1,1111 1,1111 37.500.000 80.000.000 72.000.000 33.750.000
0.4286 0.2906 1,6667 1,1111 30.000.000 70.000.000 42.000.000 18.000.000
0.2586 0.4 1,1429 1,1429 60.000.000 232.000.000 203.000.000 52.500.000
0.4 0.4286 1,1111 1,25 72.000.000 180.000.000 162.000.000 64.800.000
0.2906 0.4688 1,25 1,6667 55.800.000 192.000.000 153.600.000 44.640.000
1,8466 6,2818 255.300.000 754.000.000 632.600.000 213.690.000
a) I1 = 4.110 /11.700 = 0.35128(100) = 35,13 Precio
I1 = 365.000/ 313.000 = 1,1661(100) = 116,61 Cantidad

b) I2 = 1,8466/5 = 0.3693(100) = 36,93 Precio


I2 = 6,2818/5 = 1,2564(100) = 125,64 Cantidad

c) I3 = 0.35995(100) = 36 Precio
I3 = 1,24067(100) = 124,07 Cantidad

d) I4 = 0.4(100) = 40 Precio
I4 = 1,1429(100) = 114,29 Cantidad

e) I7 = 754.000.000 632.600.000 = 1,1919 (100) = 119.19 Cantidad


I7 = 213.690.000 632.600.000 = 0,3378 (100) = 33,78 Precio

f) I8 = 255.300.000 213.690.000 = 1,1947(100) = 119,47 Cantidad


I8 = 255.300.000 754.000.000 = 0,3386(100) = 33,86 Precio
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 38

g) I9 = 119,19(119,47) = 119,33 Cantidad


I9 = 33,78(33,86) = 33,82 Precio

Ejemplo2: La siguiente tabla muestra el comportamiento del salario mínimo mensual


(miles de guaraníes) percibidos por los trabajadores del país desde el año 1988 a 1999.
También muestra el Índice de Precios al Consumidor (IPC) para estos años, con base 1989.
a) Determine los salarios reales, tomando como base el año 1990
b) Determine los índices de salarios reales, con base el año 1990
(a) (b)
Años Salario IPC IPC Salario Real Índice de
(Miles de Gs) 1989=100 1990=100 Base 1990 S. Real
1988 90.8 96 87.27 104.04 66.80
1989 122.7 100 90.91 134.97 86.91
1990 155.7 110 100.00 155.70 100.00
1991 207.1 118 107.27 193.06 124.00
1992 245.0 131 119.09 205.73 132.13
1993 267.2 145 131.82 202.70 130.19
1994 292.4 160 145.45 201.03 129.11
1995 362.3 171 155.45 233.07 149.69
1996 417.5 185 168.18 248.25 159.44
1997 469.2 198 180.00 260.67 167.42
1998 528.0 216 196.36 268.89 172.70
1999 581.0 235 213.64 271.95 174.66
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 39

Capítulo
6

CONTROL DE CALIDAD

6.1 LA IMPORTANCIA DEL CONTROL DE CALIDAD

El uso de técnicas de muestreo en el proceso de controlar la calidad de los productos


manufacturados, es algo que se ha convertido en práctica industrial común desde la segunda
Guerra Mundial
El control estadístico de calidad consiste en aplicar las técnicas estadísticas para
controlar la calidad de los productos manufacturados.
Consiste esencialmente en la aplicación sistemática de la técnica muestral a la
constatación de si los materiales, procesos o productos de la actividad industrial, satisfacen
determinadas especificaciones durante el desarrollo de la labor de la empresa.
El objetivo es efectuar inspecciones muestrales para verificar si la producción cumple
determinadas especificaciones. Este programa debe cumplirse con el mínimo costo y en el
menor tiempo, compatibles con un margen preestablecido de seguridad en los resultados.
Los estadísticos más usados son: media muestral, dispersión muestral, y rango de la
muestra.
El control de calidad se ha convertido en el negocio industrial que más ha crecido. A
pesar de la relativa novedad de la aplicación, sus beneficios deberían ser evidentes:

1.- Crecimiento de la productividad: Si se detectan piezas que no cumplen los


estándares en una etapa temprana, y se pueden anticipar las dificultades en los
procesos de producción, se puede ahorrar mucho tiempo y dinero.
2.- Crecimiento de las ventas: Una merecida reputación de calidad es un importante
activo en el mercado competitivo.
3.- Crecimiento del beneficio: El efecto neto de reducir los costes de producción e
incrementar las ventas, se nota, evidentemente, en los balances de la compañías.
El objetivo de un ejercicio de control de calidad es controlar un proceso de
producción on-line, es decir, miestras se está trabajando. Normalmente el método más
sencillo utilizado para el efecto es el análisis gráfico, denominado gráficos de control.

6.2 VARIABILIDAD EN LA PRODUCCIÓN INDUSTRIAL


Las especificaciones de un artículo reconocen el hecho de que no existen dos
artículos que sean idénticos y señalan un recorrido de tolerancia dentro del cual deben caer
las mediciones. Si unidades individuales caen fuera de este recorrido, entonces no se les
considera aceptable; si son productos finales, son productos que no funcionarán
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 40

satisfactoriamente, y si son componentes, no se ajustarán correctamente al ensamblarse con


los otros componentes.
Como los procesos manufacturados no pueden producir dos artículos que sean
exactamente iguales, es necesario identificar y separar los artículos defectuosos a través de
inspecciones de la calidad. Esta inspección se puede hacer utilizando muestras de los
artículos, ya que el análisis del universo es muy costoso.
Las variaciones en una característica de un producto manufacturado puede ser
divididas en dos clases en base a las causas de la variación, (causas atribuibles y causas
aleatorias).

6.2.1 VARIACIONES ATRIBUIBLES O ERRORES SISTEMÁTICOS

Comprenden todas aquellas que surgen como consecuencia de causas especificas que
pueden ser identificadas. Ejemplos: variaciones que ocurren en el producto como
consecuencia de la inexperiencia de obreros, de herramientas defectuosas, de máquinas que
necesitan ajustes y de defectos en materia prima.

6.2.2 VARIACIONES ALEATORIAS O ERRORES ALEATORIOS

Pueden resultar como consecuencia de combinación fortuita de circunstancias que


causan pequeñas diferencias en las unidades individuales que se producen; estas diferencias
tienen un efecto individual muy pequeño que no es práctico tratar de identificar las causas.
Aunque se utilicen las mismas máquinas, materiales, trabajo y técnicas de producción,
algunas variaciones siempre habrá en el producto. Sin embargo, no vale la pena incurrir en
el costo de identificar las causas de tales variaciones, puesto que ellas en realidad son el
resultado del azar. Este tipo de error constituye el objeto de la llamada teoría de errores.

LAS TÉCNICAS que se utilizan en el control estadístico de calidad se dividen en dos


clases:
a) Diagrama de Control que se puede utilizar en forma continua para analizar el
proceso.
b) Muestreo para aceptación, que se puede utilizar al final del proceso industrial.

Diagrama de Control: es un instrumento que se utiliza para hacer un gran número de


pruebas de significación en una forma sistemática. Se puede usar para inspeccionar la
producción en una forma continua para detectar cuándo un proceso no está funcionando en
una forma aceptable. Se diseña un programa para verificar la hipótesis de que el proceso
está operando satisfactoriamente. El diagrama de control es un instrumento eficiente para
hacer estas numerosas pruebas y obtener un aviso cuándo ocurre que la hipótesis no debe ser
aceptada.

Muestreo para aceptación: es el uso de la inspección de una muestra por un


comprador para decidir si ha de aceptar o no una remesa. Se inspecciona una muestra de la
remesa y si el número de artículos defectuosos no excede a un número predeterminado,
conocido como el número de aceptación, se acepta la remesa; de lo contrario se rechaza.

6.3 GRÁFICOS DE CONTROL PARA MEDIAS Y DESVIACIONES


TIPICAS
Consideremos ahora el caso en el que un proceso de producción proporciona un
producto cuya característica de interés se mide en un contínuo. Se desea establecer un
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 41

esquema de control de calidad para dicho proceso. Normalmente para muchas de las
aplicaciones, se toman muestras de cuatro o cinco observaciones; para obtener un registro
razonable del funcionamiento, es necesario disponer de 20 ó más muestras.
En la aplicación típica, la dirección estará interesada en el funcionamiento medio y en
la variabilidad del funcionamiento al mismo tiempo. Demasiada variabilidad indicaría que
se están produciendo muchas unidades que no alcanzan el estándar, aunque el
funcionamiento medio sea correcto.

6.3.1 ESTIMACIÓN DE LA DESVIACIÓN TÍPICA DEL PROCESO

Como un primer paso para fijar los límites de control de los gráficos X y los gráficos
S, es necesario estimar la desviación típica del proceso, . Una posibilidad, es basarse en la
estimación del desviación típíca global de todas las observaciones. Sin embargao, en el
control de calidad aplicado, es más usual basar la estimación de  en S, promedio de las
desviaciones típicas muestrales.
Una estimación insesgada de la desviación típica del proceso está dada por la
sigssiguiente fórmula:
S
ˆ 
C4

16.3.2 GRÁFICOS DE CONTROL PARA MEDIAS

Para la dirección de producción, es importante buscar señales de deterioro en la


calidad. Una posible indicación de este problema podría ser una media muestral que se
desvía mucho del funcionamiento “habitual”. En control de calidad, el juicio se hace a
través de la comparación con los límites de control representados en los gráficos de control.
En la práctica, cuando se suscita un problema, en el control de calidad, debe hacerse
un poco de trabajo de investigación. Esto puede suponer interrumpir e investigar con
profundidad todo el proceso de producción. Para protegerse de la ocurrencia de muchas
“falsas alarmas”, es usual en control de calidad, trabajar con límites de control de tres
desviaciones típicas a cada lado de la media de la distribución muestral.

16.3.3 GRÁFICOS DE CONTROL PARA DESVIACIONES TÍPICAS

Para establecer el progreso de la variabilidad del proceso a lo largo del tiempo, pueden
representarse las desviaciones típicas en un gráfico de control. La línea central de este
gráfico será el promedio de las desviaciones típicas muestrales, S, y es habitual fijar límites
de tres errores estándar.

Para tamaños muestrales n  5, restar tres errores estándar de S da un número


negativo. Obviamente, las desviaciones típicas no pueden ser negativas, por tanto, se
tomará como límite inferior 0 (cero).

16.3.4 ANÁLISIS DE GRÁFICOS DE CONTROL

Si todos los puntos se encuentran dentro de los límites de control, se dice que el
proceso está bajo control, que quiere decir, que el funcionamiento parece estable.
Hay diferentes maneras en las que un proceso puede estar fuera de control. En este
punto discutiremos tres posibilidades:
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 42

1.- Un valor fuera de los límites de control: requiere un poco de investigación. El


analista debe hacer un poco de trabajo de detective, buscando la causa. La explicación
más común es que el valor observado no ha sido correctamente registrado. Es posible
entónces corregir este error. Otra posibilidad es que, en ese momento, hubiera sido
manejado por personal no cualificado. Cuando hay causas asignables esta muestra
puede ser desechado y reemplada por otra, calculando nuevos límites de control.
2.- Excesiva variabilidsad: puede ocurrir que a pesar de que ninguno de los valores
cae fuera de los límites de control, muchos de ellos están alejados de la línea central y
relativamente cerca de los límites. La excesiva variabilidad no es deseable;
3.- Tendencia de los estadísticos: puede ocurrir el caso de que los estadísticos no están
dispuestos alrededor de la línea central. Más bien presenta una tendencia creciente o
decreciente en el tiempo. Esto causa una preocupación, a pesar de que ningún valor
salga de los límites de control.

6.4 CAPACIDAD DE UN PROCESO

Es importante determinar si el proceso de producción está operando según las


especificaciones requeridas. Si el proceso está actualmente bajo control, lo que estamos
queriendo saber es, si el proceso es capáz de cumplir las especificaciones. El juicio se
forma en base a los datos generados por un proceso que aparentemente está bajo control.
Por tanto, si la muestra contiene observaciones debido a causas asignables, éstas deben ser
eliminadas de la muestra antes de intentar establecer la capacidad de un proceso. Sólo
cuando se ha establecido un modelo bajo control, se puede continuar para estudiar la
capacidad del proceso.
Normalmente, la dirección fijará un rango de valores que son válidos para
determinada característica del producto, acotado por límites de especificación inferior y
superior. Un proceso capáz de cumplir esta especificación, raramente proporcionará un
producto fuera del rango. El ancho del intervalo se suele llamar tolerancia natural del
proceso. Proporciona una medida de variabilidad, en las especificaciones del producto que
cabe esperar.
Dos medidas de la capacidad de un proceso:
 Indice de capacidad. Esta medida es apropiada cuando los datos muestrales están
centrados entre los límites de tolerancia. Suele tomarse como valor satisfactorio,
uno que sea al menos 1,33
 Indice Cpk. Cuando los datos muestrales no están centrados, es necesario tener en
cuenta que el proceso esta operando más cerca de un límite que del otro. De nuevo,
se tomarán como satisfactorios valores de al menos 1,33.

6.5 GRÁFICOS DE CONTROL PARA NÚMERO DE


OCURRENCIAS

Una aplicación habitual del control de calidad es cuando se inspecciona una unidad ya
terminada y se cuenta el número de defectos o imperfecciones de determinado tipo. Si se
inspeccionan unidades en un determinado período de tiempo, y se cuenta el número de
imperfecciones en ese período, esta información puede representarse en un gráfico de
control. Esto se llama un gráfico c, que es un gráfico de tiempo del número de ocurrencias
de un suceso.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 43

6.6 GRÁFICOS DE CONTROL PARA PROPORCONES


La variable de interés es la proporción de unidades en cada muestra que son
defectuosas. Obviamente, querríamos que esta proporción fuera lo más pequeña posible;
encontrar una tendencia creciente a lo largo del tiempo debería preocuparnos.
En el gráfico de control para proporciones, son necesarias muestras mucho más
grandes. Esto ocurre porque cualquier proceso de producción que haya sido construido
competentemente no generará una alta proporción de unidades defectuosas. Por tanto, para
obtener una idea razonable de esta medida de calidad, es esencial disponer de una muestra
relativamente grande. Para muchas aplicaciones se recomienda una muestra de entre 50 y
200 unidades. Una regla empírica que se utiliza a menudo en la práctica es que, en
promedio, el número de undidades defectuosas por muestra debería ser de al menos cinco o
seis. Asi que, por ejemplo, si se espera un 1% de undidades no conforme con los estándares,
se necesitarán muestras de al menos 500 – 600 unidades.
Gráfico p: es una gráfica de tiempo de la sucesión de proporciones muestrales de
undidades defectuosas
Obs.: la fórmula para el límite inferior, puede dar un número negativo; en este caso,
el límite de control se fija en 0 (cero).
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 44

Capítulo
7

TEORIÍA DE LA DECISIÓN

7.1 CÓMO TOMAR DECISIONES BAJO INCERTIDUMBRE

La decisión de qué camino a seguir, debe hacerse en un mundo en que hay


incertidumbre sobre cómo será el comportamiento en el futuro de algunos factores; son
estos factores los que determinarán las consecuencias de la acción que se haya decidido
llevar a cabo.
Por ejemplo: estás considerando la posibilidad de ir a un partido de fútbol, pero dudas
porque hay alguna posibilidad de que llueva. Si supieras que no va a llover, irías al partido;
si estuvieras seguro de que va a llover a cántaros durante horas no irías. Pero eres incapaz
de predecir el clima con total seguridad, tu decisión debe tomarse contemplando un futuro
incierto.
En el mundo de los negocios, este tipo de situaciones surgen a menudo; a continuación
presentamos algunos ejemplos que ilustran este hecho:
1.- En una recesión, una compañía debe decidir si despedir a algunos empleados. Si la
recesión en la actividad dura poco tiempo, puede ser preferible retener a todos los
empleados, ya que podrían ser difíciles de reemplazar cuando la demanda mejore. Sin
embargo, si la recesión va a ser larga, retener a estos empleados puede resultar muy
costoso. Por desgracia, el arte de la predicción económica no permite predecir con certeza la
dureza de una recesión ni el tiempo que pueda durar.
2.- Un inversor puede opinar que los tipos de interés están actualmente en un pico. En
este caso, los bonos a largo plazo serían una inversión muy atractiva. Sin embargo, no es
posible conocer con certeza la dirección que tomarán en el futuro los tipos de interés, si
resulta que van a seguir subiendo, invertir el dinero en bonos a largo plazo puede no ser
óptimo.
3.- El coste de realizar una perforación para determinar la presencia de petróleo es
enorme; aunque se disponga de mucha información geológica, las compañías petroleras no
saben, hasta que se excava el pozo, si existen suficientes cantidades de petróleo para hacer
que la operación resulte rentable. La decisión si debe excavarse o no, y dónde debe hacerse,
debe tomarse en un entorno de incertidumbre.
La persona que debe tomar la decisión se encuentra con un número, k, de posibles
acciones, que representaremos por a1, a2, a3 .......... ak. En el momento en que debe
seleccionarse una determinada acción, la persona que decide no sabe con seguridad el
comportamiento futuro de un factor que determinará las consecuencias de la acción tomada.
Las posibilidades de este factor pueden caracterizarse por un número finito, H, de estados de
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 45

la naturaleza. Estos estados serán S1, S2, S3 .......... SH. Finalmente, supondremos que la
persona que toma la decisión es capaz de especificar la recompensa monetaria, o los pagos,
para cada combinación de acción y estado de la naturaleza, representados por Mij. Estos
pagos pueden disponerse en una tabla de pagos.

Esquema de un problema de decisión


(i) La persona que debe tomar la decisión dispone de K líneas de acción
alternativas: a1, a2, a3 .......... ak.
(ii) Hay H posibles estados de la naturaleza: S1, S2, S3 .......... SH.
(iii) Para cada posible combinación de acción y estado de la naturaleza, existe un
pago monetario asociado, Mij , que corresponde a la acción ai y al estado de la
naturaleza Sj

Forma general de una tabla de pagos para un problema de decisión con K posibles
líneas de acción y H estados de la naturaleza: Mij es el pago correspondiente a la acción ai
y el estado de la naturaleza Sj.

ACCIONES ESTADOS DE LANATURALEZA(eventos)


S1, S2, ..........SH.

a1 M1.1 M1.2 M1.H


a2 M2.1 M2.2 M2.H
. . .
ak. Mk.1 Mk.2 Mk.H

En esencia, una tabla de pagos identifica la ganancia (ó perdida) condicional


correspondiente a todas las combinaciones posibles de actos y eventos de decisión; también,
típicamente, indica la probabilidad de ocurrencia para cada uno de los eventos mutuamente
excluyentes
Obs.: Cualquier acción que esté dominada por otra, se dice que es inadmisible. Las acciones
inadmisibles se eliminarán de la lista de posibilidades antes de continuar con el posterior
análisis del problema de decisión.
Cualquier acción que no esté dominada por otra acción, y que, por tanto, no sea
inadmisible, diremos que es admisible
Una acción es superada por otra cuando la anterior es mayor en cualquiera de los
estados de naturaleza y los restantes eventos correspondientes a la acción precedente son
iguales o también mayores.

7.2 SOLUCIONES QUE NO INVOLUCRAN ESPECIFICACIÓN DE


PROBABILIDADES

En esta sección, consideraremos brevemente dos criterios de selección que no se


basan en probabilidades, y que en realidad no tiene ningún contenido probabilistico. Más
bien esos enfoques dependen únicamente de la estructura de la tabla de pagos.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 46

Los dos procedimientos considerados en esta sección se llaman criterio maximin y


criterio de la pérdida minimax.

7.2.1 CRITERIO MAXIMIN

En este caso, consideramos el peor resultado posible para cada acción, considerando
los posibles estados de la naturaleza. Este resultado peor es simplemente el pago más
pequeño que podría obtenerse. Este criterio selecciona aquella acción para la que el mínimo
pago es el mejor, es decir, maximizamos el mínimo pago.
Regla de decisión basada en el criterio maximin
(i) Para cada acción (fila), buscamos el mínimo pago posible.
(ii) Elegir la acción que corresponda al máximo de estos pagos
mínimos, es decir, el mayor entre los mínimos

7.2.2 CRITERIO DE LA PÉRDIDA MINIMAX

Si se va a utilizar este criterio, debe imaginarse que se está en una situación en la que
ya se ha elegido una línea de acción, ya ha ocurrido un estado de la naturaleza, y se puede
mirar hacia atrás, a la decisión tomada, y determinar si fue buena o mala, en el sentido de
que, visto lo que ha ocurrido, habría sido preferible tomar otra línea de acción.
El criterio de la pérdida minimax selecciona la acción para la que la pérdida máxima
es la menor posible.

Regla de decisión basada en el criterio de la pérdida minimax


Supongamos que la tabla de pagos se presenta en una matriz rectangular, donde las
filas corresponden a acciones y las columnas a estados de la naturaleza. Si cada pago de
la tabla se resta del mayor pago correspondiente a su columna, la matriz resultante se
llama tabla de pérdidas.
Dada una tabla de pérdidas, la acción sugerida por el criterio de la pérdida minimax
se encuentra como sigue:
(i) Para cada fila (acción) hallar la pérdida máxima.
(ii) Elegir la acción que corresponda al mínimo de estas pérdidas máximas.

El criterio de la pérdida minimax en un problema de decisión, refleja la mínima


pérdida posible que se puede garantizar.

7.2.3 VALOR MONETARIO ESPERADO

En esta sección, supondremos que puede asociarse una probabilidad de ocurrencia a


cada estado de la naturaleza, y veremos cómo pueden utilizarse estas probabilidades para
tomar una decisión.
Criterio del valor monetario esperado: la acción que debe seguirse es aquella con el
máximo valor monetario esperado.
El análisis de decisión mediante el criterio del valor monetario esperado puede
representarse de forma muy conveniente en un diagrama conocido como árbol de decisión.
Los cálculos se realizan de derecha a izquierda, comenzando con los pagos. Para cada
vértice circular, se halla la suma de los pagos ponderados por sus probabilidades. Esto
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 47

proporciona el VME de cada acción. Finalmente el máximo de estos pagos se representa en


el vértice marcado con un cuadrado.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 48

CAPITULO 8
ALGUNOS CONTRASTES NO PARAMÉTRICOS
8.1. INTRODUCCIÓN

En los capítulos anteriores, se ha desarrollado algunos contrastes que dependían del


supuesto de normalidad. Gracias al teorema central del límite, muchos de estos contrastes
siguen siendo aproximadamente válidos cuando se aplican a muestras grandes, incluso si la
distribución de la población no es normal. Muchas veces se da también el caso que, en
aplicaciones prácticas, dicho supuesto de normalidad no sea sostenible. Lo ideal entonces
será basar la inferencia en contrastes que sean válidos bajo un amplio rango de
distribuciones de la población. Estos contrastes se denominan no paramétricos o
independientes de la distribución.
Los contrastes no paramétricos son generalmente válidos cualquiera sea la
distribución de la población, es decir, que son independientes de las distribuciones de la
población y de los parámetros asociados. Son especialmente útiles cuando se trata con datos
no numéricos, por ejemplo, cuando los consumidores colocan productos por orden de
preferencia.
El punto focal del análisis paramétrico es algún parámetro poblacional, cuya
estadística muestral tiene una distribución conocida.
Las pruebas no paramétricas se utilizan cuando se trata con muestras pequeñas,
debido a que en estos casos no puede aplicarse el teorema central de límite.
Las pruebas no paramétricas pueden utilizarse para probar hipótesis referentes a la
forma, la dispersión o la posición (mediana) de la población. En la mayor parte de las
aplicaciones, las hipótesis se refieren al valor de una mediana, a la diferencia entre dos
medianas, o a las diferencias entre varias medianas. Esto difiere de los procedimientos
paramétricos, que se concentran principalmente en medias poblacionales.

8.2 EL CONTRASTE DE SIGNOS


Se usa para contrastar hipótesis sobre el parámetro de centralización (mediana) y
fundamentalmente en el análisis de comparación de datos pareados. No se hace suposiciones
con respecto a la forma de la distribución poblacional.
Se utiliza Med para representar la mediana de la población, y Med0 para representar
el valor hipotético, las hipótesis nula y alternativa para una prueba de dos extremos son:
H0 : Med = Med0 H1: Med ≠ Med0
El contraste de signos puede ser utilizado para contrastar la hipótesis nula de que la
mediana de una población es 0. Se asigna un valor positivo (+) a cada valor muestral
observado que resulte ser mayor que el valor hipotético de la mediana, y un signo negativo
(-) a los valores que son menores que ese valor hipotético. De la muestra aleatoria extraída
de la población, se eliminan aquellas observaciones iguales a 0, quedando en total n
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 49

observaciones. Si es verdadera la hipótesis nula con respecto al valor de la mediana, el


número de signos positivos debe ser aproximadamente igual al número de signos negativos.
La hipótesis nula a contrastar será que la proporción p de observaciones positivas en la
población es 0.5, es decir, Ho: p = 0.5
En este caso, el contraste está basado en el hecho de que el número de observaciones
positivas en la muestra tiene una distribución binomial (con p = 0.5 bajo la hipótesis nula).
Si el tamaño de muestra es pequeño (n<20), se utiliza la distribución binomial para
realizar la prueba.
El contraste de signos: Muestras grandes
Si el número de observaciones no iguales a cero es grande (n >20), el contraste de
signos está basado en la aproximación de la binomial a la normal.
Pp
Z
p.q
n

8.3. EL CONTRASTE DE WILCOXON


Puede ser utilizado para comparar datos por parejas. Se puede utilizar cuando se
desea probar una hipótesis relacionada con un parámetro que refleje una tendencia central
(mediana). La prueba de Wilcoxon, considera la magnitud de la diferencia entre cada uno de
los valores muestrales y el valor hipotético de la mediana
Supongamos que la distribución de las diferencias es simétrica, y nuestro propósito
es contrastar la hipótesis nula de que dicha distribución está centrada en 0. Eliminando
aquellos pares para los cuales la diferencia es cero, se calculan los rangos en orden
creciente de magnitud de los valores absolutos de las restantes diferencias, asignando el
rango 1 a la diferencia absoluta más pequeña. Cuando las diferencias absolutas son iguales,
se asigna el rango promedio a los valores que son iguales. Se calculan las sumas de los
rangos positivos y negativos, y la menor de estas sumas es el estadístico T de Wilcoxon. La
hipótesis nula será rechazada si T es menor o igual que el valor correspondiente en la tabla.
Se usa la tabla para obtener valores críticos, cuando n  20.

T  R Suma menor de rangos (Positivos o negativos)

Se rechaza la hipótesis nula cuando T < T (unilateral)


Se rechaza la hipótesis nula cuando T < T/2 (bilateral)

(a) El contraste del Wilcoxon: muestras grandes

Cuando el número n de diferencias no nulas en la muestra es grande (n> 20), la


distribución normal es una buena aproximación de la distribución del estadístico del
Wilcoxon y se puede utilizar la siguiente fórmula de aproximación:
n(n  1) Valor medio de T
T 
4
T  T n(n  1)(2n  1)
Desviación estándar de T
Z  T 
T 24

n....es el tamaño de la muestra después de deducir los resultados cero (no nulas)
n..... tamaño original de la muestra
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 50

Di = Xi – Mo ........diferencias
Mo...... mediana hipotética
Mp ..... mediana de la población
Si el número n de diferencias no nulas es grande y T es el valor observado del
estadístico de Wilcoxon, los siguientes contrastes tienen nivel de significación :
a) Si la hipótesis alternativa es unilateral, rechazaremos la hipótesis nula si Z< -Z
b) Si la hipótesis alternativa es bilateral, rechazaremos la hipótesis nula si Z< -Z/2

Procedimiento
Para llevar a cabo la prueba de rangos y signos de Wilcoxon se puede aplicar el
siguiente procedimiento de seis pasos:
a) Para cada partida en una muestra de n partidas se obtiene un resultado de
diferencia Di.
b) Después no se toman en cuenta los signos (+) y (–) y se obtiene un grupo de n
diferencias absolutas Di.
c) Se omite de cualquier análisis adicional cualquier diferencia absoluta con
resultados de 0, con lo cual se obtiene un grupo de n resultados de diferencias
absolutas que no sean 0.
d) Después se asignan rangos Ri desde 1 hasta n a cada una de las Di de modo
que el resultado de diferencia absoluta más pequeño obtiene una clasificación
de 1 y el mayor de n. Por la falta de precisión en el proceso de medición, si dos
o más Dison iguales, a cada una se asigna el “rango promedio” de los rangos
que de lo contrario se les hubieran asignado individualmente si no hubiera
ocurrido la igualdad de los datos.
e) Ahora se asignan de nuevo el signo (+) o el signo (–) a cada uno de los n rangos
Ri, dependiendo de si originalmente Di era positiva o negativa.
f) Se suman por separado los rangos de las diferencias positivas y negativas. La
más pequeña de las sumas es el estadístico T.

T  R
(b) Prueba de una muestra
Si el investigador está interesado en probar una hipótesis relacionada con una
mediana de población especificada M0 con base en los datos de una sola muestra, se puede
utilizar la prueba de rangos y signos de Wilcoxon (una muestra). La prueba de hipótesis
puede hacerse con una o dos colas:
Prueba de dos colas Prueba de una cola Prueba de una cola
H0 : mediana = M0 H0 : mediana  M0 H0 : mediana  M0
H1 : mediana  M0 H1 : mediana < M0 H1 : mediana > M0

(c) Pruebas de muestras pareadas


En las ciencias sociales y en investigaciones de mercado suele ser interesante
examinar las diferencias entre dos grupos relacionados. Por ejemplo, al hacer pruebas de
mercado de un producto bajo dos diferentes condiciones de publicidad, se puede aparear una
muestra de mercado de prueba sobre la base del tamaño de la población del mercado de
prueba. Es mas, al realizar un experimento de prueba de sabor se podría utilizar cada sujeto
de la muestra como su propio control, de modo que se obtengan mediciones repetidas sobre
la misma persona. La prueba de la hipótesis nula de que la diferencia mediana de la
población MP es cero `puede tener una cola o dos colas.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 51

Prueba de dos colas Prueba de una cola Prueba de una cola


H0 : MP = 0 H0 : MP  0 H0 : MP  0
H1 : MP  0 H1 : MP < 0 H1 : MP > 0

Los datos observados constituyen una muestra aleatoria de n partidas o personas


independientes, cada una con dos mediciones.

8.4 EL CONTRASTE (U- TEST) DE MANN- WHITNEY


En esta sección se introduce un contraste que trata de muestras aleatorias
independientes.
Nuestra hipótesis es que los parámetros de centralización (mediana) de las dos
poblaciones son iguales. Se supone que las dos poblaciones tienen la misma forma y la
misma dispersión, porque si existieran diferencias en estos parámetros, podrían conducir a
rechazar la hipótesis nula.
Pasos a seguir:
1. Combinar todos los valores de las dos muestras en una ordenación de menor a
mayor, y asignar rangos a todos esos valores. Si dos o mas valores muestrales
son idénticos, se les asigna a cada uno un rango que es la media de los rangos
que les hubieran correspondido sin tal coincidencia.
2. Hallar la suma de los rangos para cada muestra. Las denotamos con R 1 y R2
donde n1 y n2 son los respectivos tamaños muestrales. Por conveniencia
elegimos n1 que es el menor si son desiguales tales que n1 n2 . Una diferencia
significativa entre las sumas de rangos R1 y R2 implica una diferencia
significativa entre las muestras.
3. Para contrastar la diferencia entre las sumas de rangos, usamos el estadístico:
n1 (n1  1)
U  n1 .n2   R1
n1.n2 2
n1.n2 n1  n2  1
E (U )  u   2u 
2 12
correspondiente a la primera muestra. La distribución muestral es simétrica y tiene una
media y una varianza dadas por:
La distribución U se aproxima a una normal cuando el tamaño muestral crece (cada
muestra contiene 10 o más observaciones) de manera que está normalmente distribuido con
media igual a 0 y varianza igual a 1.
El valor correspondiente a la muestra 2 viene dado por el estadístico
con media y varianza iguales a la muestra 1 que proporcionan una comprobación de los
cálculos.

n(.n  1)
U1  U 2  n1.n2 n  n1  n2
Además se tiene:
R1  R 2 
2
n2 (n2  1) U  E (U )
U 2  n1 .n2   R2 Z 
2 U
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 52

Se supone que las dos distribuciones poblacionales son idénticas. En el contraste


de que las dos distribuciones tienen el mismo parámetro de centralización, el siguiente
contraste tiene nivel de significación :

1. Si la alternativa Ho es la hipótesis unilateral de que el parámetro de


centralización de la población 1 es mayor que el de la población 2, la regla de
decisión es:
Rechazar Ho: si Z< - Z

2. Si la alternativa Ho es la hipótesis unilateral de que el parámetro de


centralización de la población 1 es menor que el de la población 2, la regla de
decisión es:
Rechazar Ho: si Z> Z

3. Si la alternativa Ho es la hipótesis bilateral de que el parámetro de centralización


de las dos poblaciones es diferente, la regla de decisión es:
Rechazar Ho: si Z> Z/2 o Z< - Z/2

OBS.: Se calculan U1 y U2 ; el menor valor de ellos se compara con los valores


críticos de la tabla (tabla 14 Novales). Si el valor del estadístico muestral es inferior al de la
tabla, se rechaza la hipótesis nula.

8.5 CONTRASTE DE RACHAS CORRIDAS


Una corrida es un conjunto de observaciones similares. Se utiliza para probar la
aleatoriedad de un conjunto de observaciones (donde a cada una de éstas se le asigna un de
dos categorías).
Una forma de obtener el esquema de dos categorías que se requiere, consiste en
clasificar cada una de las observaciones según sea mayor o menor que la mediana del grupo.
Se rechaza la hipótesis nula (secuencia de las observaciones es aleatoria) si se obtiene un
número muy grande o muy pequeño de corridas, con respecto a lo que se esperaría en una
muestra aleatoria..
Se determina el número de corridas de elementos similares para los datos
muestrales, utilizando el símbolo C para designar el número de corridas observadas.

n1............representa el número de elementos muestreados de un tipo


n2............representa el número de elementos muestreados del segundo tipo
R............número de rachas
2n1n2
UR  1 La media
n1  n2
2n1 n 2 (2n1 .n 2  n1  n 2 )
R  Error estándar
(n1  n 2 ) 2 (n1  n 2  1)
n = n1 + n2
Si la alternativa es una hipótesis bilateral de no aleatoriedad, el nivel de
significación , debe ser duplicado si es más pequeño que 0,5. Alternativamente, si el nivel
de significación, leído de la tabla es mayor que 0,5, el nivel de significación apropiado para
el contraste contra la alternativa bilateral será 2(1-)
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 53

Para muestras pequeñas (n < 20) se utiliza la tabla 11)


Para muestras grandes (n > 20) la distribución muestral de C se aproxima a la
distribución normal
(R  R ) n
Z  R  1
R Z  2
n 2  2n
4( n  1)
H0: la serie es aleatoria
El siguiente contraste tiene nivel de significación :
1.- Si la hipótesis alternativa es la relación positiva, la regla de decisión será

Rechazar H0 si Z < - Z

2.- Si la alternativa de no aleatoriedad es bilateral, la regla de decisión será

Rechazar H0 si Z < - Z/2 ó Z > Z/2


Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 54

CONCEPTOS VARIOS

AJUSTE E INTERPOLACIÓN

Para estudiar el comportamiento de una serie de datos empíricos, relacionados con los
valores de dos variables, es importante disponer de un procedimiento que permita
determinar una función (curva) que describa en forma simple y lo mas aproximadamente
posible a los datos, la relación entre ambas variables.
Para resolver el problema, los procedimientos se clasifican en dos grupos:
interpolación y ajuste.

LA INTERPOLACIÓN iniciada por Newton, se caracteriza por suponer que los datos son
exactos, por lo cual, al construir la función interpolatriz se exige que ella satisfaga para los
valores particulares que constituyen los datos. Geométricamente, la curva debe pasar por los
puntos que representan los datos, y deben tener, en principio, tantos parámetros
indeterminados como puntos se den en los datos. La condición de que los datos satisfagan la
ecuación nos permitirá calcular el valor de dicho parámetro. Una vez calculada la función se
puede calcular nuevos valores de la variable dependiente.

EN LOS AJUSTES se supone que los datos están sujetos a errores aleatorios, por lo que
no resulta indispensable que la curva de ajuste pase exactamente por los puntos que
representan los datos, sino que, en promedio, la aproximación sea optima, de acuerdo a
cierto criterio, llamado criterio de ajuste. El iniciador de estos procedimientos fue Gauss,
quien creó el método llamado de los mínimos cuadrados.

MÉTODOS DE AJUSTE

a) AJUSTE POR MOMENTOS: el criterio de los momentos tiene como fundamento la


suposición de que los S primeros momentos de la función son, respectivamente, iguales a
los S primeros momentos de la serie empírica dada, siendo S el número de parámetros a
determinar. Es decir, tenemos las igualdades: m1 = m1; m2= m2; m3 = m3; m4 = m4
siendo las ms los momentos empíricos de la serie, y ms los momentos de la función que se
ajusta..
En la práctica suelen usarse hasta cuatro momentos. Las potencias sucesivas hacen
que los valores de los momentos de orden alto sean inciertos.

b) MÉTODO DE MÍNIMOS CUADRADOS: el fundamento del método de los mínimos


cuadrados consiste en determinar los S + 1 valores de los parámetros ai de la curva,
imponiendo la condición de que la suma de los cuadrados de las diferencias sea un mínimo.

c) AJUSTE DE LA FUNCIÓN NORMAL: dada una serie de frecuencias que representada


gráficamente dé una curva campanular aproximadamente simétrica y tal que, habiendo
realizado el análisis de la serie, hayamos obtenido que la asimetría y la curtósis sean
próximos a cero, entonces conviene tratar de efectuar el ajuste de una curva normal.
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 55

EL DESARROLLO DE LA POBLACIÓN Y LA CURVA LOGÍSTICA


Se utiliza para reflejar el crecimiento de las poblaciones y también de empresas
económicas.
La hipótesis de MALTHUS postula, que la población crece en razón geométrica. Esta
hipótesis no es aceptada actualmente y ha sido sustituida por otra que supone que actúan
factores represivos, que obran paulatinamente y de tal manera que al aumentar la población
tiende a disminuir su tasa de crecimiento. Esta disminución ha sido verificada mediante
observaciones estadísticas directas, sobre poblaciones humanas, y también sobre
poblaciones animales y vegetales.
La curva logística tiene importancia como línea tendencial de la evolución de las
poblaciones humanas y de poblaciones de organismos biológicos.
En economía también resulta de gran interés, porque se ha probado que en muchos
casos proporciona una buena representación tendencial de la evolución de una industria y de
otros entes económicos. En la primera parte de la curva, el crecimiento es lento y va
incrementándose progresivamente, luego se llega a un período de crecimiento muy rápido,
correspondiente a las proximidades del punto de inflexión, pasado el cual el crecimiento
vuelve a hacerse cada vez más lento, aproximándose a un estado estacionario. Este mismo
proceso se observa en el desarrollo de las industrias y organismos económicos: progreso
lento al principio, luego acelerando hasta un cierto punto, a partir del cual hay una
disminución del ritmo de crecimiento, tendiendo finalmente a una situación casi estable,
porque algún factor (materia prima, mano de obra, mercado, etc.) actúa como tope natural.

LA FUNCIÓN DE GOMPERTZ

En el estudio de seguros de vida, y en otros problemas de carácter demográfico y


económico, interesa estudiar la evolución del número de sobrevivientes de un grupo dado de
personas a través del tiempo. Para estudiar este problema GOMPERTZ introdujo una
hipótesis que permitió determinar una función que es aceptable para edades no extremas,
como descripción de la evolución de la supervivencia.

Sea 1x el número de personas vivas a la edad x, de una población original 1o ; la


hipótesis consiste en efectuar una suposición sobre la forma de la tasa instantánea de
mortalidad definida en la siguiente forma:

1.dl x
x 
1x.dx
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 56

Respecto de x concretó su hipótesis así: x = b.cx que atribuye una variación


exponencial a la tasa instantánea x; es decir, una variación del tipo progresión geométrica,
ya que:
 x 1 b.c x 1
 c
x b.c x

por lo tanto c sería el porcentaje constante de variación anual de x.

Como la hipótesis no resulta totalmente satisfactoria en las edades extremas,


MAKEHAN, introdujo alguna modificación a la hipótesis, agregando un término constante,
que representa la mortalidad de origen aleatorio e independiente de la edad, con lo que
resulta:
x = a + b.cx
Hipótesis de MAKEHAN: Mx = a + b.cx

Fórmula de GOMPERTZ _ MAKEHAN:

1x  k . S x g c
x

K = 1o.e.b/log.c ; S = e- g = eb/log.c

DISTRIBUCIÓN DE LAS RENTAS


Fue Pareto quien inició los estudios de distribución de rentas utilizando la ecuación
y = A x- , en la cual “x” es la renta, “y” el número de rentistas que tienen renta mayor o
igual que x; Xi = log.x; Yi = log.y C = log.A

Yi =C - Xi
La recta se ajusta mediante el método de los mínimos cuadrados a los valores de una
tabla de rentas acumuladas, de mayor a menor.

  Y  X 2   X  XY
c n YX   X  Y
 n X 2   X  
 n X 2   X 
2
2

Se trata de una recta de pendiente , negativa. Pasando de los logaritmos a los


números, obtenemos una hipérbola.
Según Pareto en la distribución de la renta en un país determinado,  permanece
prácticamente invariable a través del tiempo y, en general, está comprendido entre 1,5 y 2.
Si bien la fórmula de Pareto resulta aceptable para el estudio de la distribución de las
rentas, no lo es para otras aplicaciones tales como la distribución de la tierra, de los
capitales, de la capacidad de las fábricas. etc.

CONCENTRACIÓN DE FACTORES ECONÓMICOS


LA CURVA DE LORENZ Y GINI sirve para proveernos una descripción acerca de la
distribución del ingreso entre un grupo de individuos.
Es un diagrama que nos indica la relación entre la distribución acumulada del ingreso
total y el porciento acumulado de las personas que han recibido ese ingreso. Ambas
Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 57

variables, ingreso y personas, se expresan en términos relativos o proporcionales y la


acumulación de ambas proporciones se hace comenzando con la clase de ingresos más
bajos. Si todos los ingresos estuviesen distribuidos igualitariamente, lo que sucedería sería
que el 10 de la población tendría el 10 del ingreso total; el 20 de la población el 20 del
ingreso, etc. de forma que la curva de Lorenz se convertiría en una línea recta con pendiente
de 45 grados. A ésta línea se le conoce como la “línea de perfecta igualdad, ya que ocurriría
si el ingreso estuviera distribuido igualitariamente entre toda la población. Esta línea se
utiliza como patrón para comparar el grado de desigualdad existente en la distribución del
ingreso. Mientras más cerca se encuentre la curva de Lorenz que estimamos de la “línea de
la perfecta igualdad”, más equitativa es la distribución del ingreso, y mientras más se separe
menos equitativa será.
Para un análisis detallado sobre la distribución se ha utilizado con éxito, los Cuartíles
y Deciles. En el caso de Deciles resulta la siguiente correspondencia:
xi: 10 20 30 40 50 60 70 80 90
yi: y1 y2 y3 y4 y5 y6 y7 y8 y9
En particular, interesan los valores y1, y5, 100- y9 que representan la cantidad de
atributo que corresponde a la décima parte de la población menos dotada; y5, la proporción
de atributo que corresponde a la mitad menos dotada de la población; 100- y9, es el
porcentaje de atributo correspondiente al décimo de la población mejor dotada.

ANÁLISIS DE UNA SERIE DE FRECUENCIAS


El estudio se dividirá en tres partes: en la primera nos referiremos al tratamiento
elemental, que consiste en calcular la media aritmética y el coeficiente de dispersión; en la
segunda nos ocuparemos del calculo completo de las características de la serie,
introduciendo el llamado método corto, mediante el esquema de Charlier; y en la tercera,
veremos el ajuste de una serie de frecuencias mediante la curva normal, las curvas de Gram-
Charlier y de Pearson, completando posteriormente con la bondad de ajuste.

Método Largo: consiste en el calculo de X y m2 y luego el paso a la formula de S.


Las formulas son:
 x  1
2
Ni
X 
 xNi S  m2  X
2 2

n
 m2  2 X  1 Comprobación
n

Método Corto: se aplica en las series de frecuencias numerosas (más de 100


individuos) dadas en intervalos de clase; tiene como fundamento la transformación de la
variable X en otra variable reducida x·, definida por la formula:
x A
x  x  x.w  A
W

donde x será llamada variable reducida de origen A que es un valor arbitrario, que se toma
habitualmente próximo al centro de la serie; w es el intervalo de clase. Con esto se consigue
que x· se exprese en unidades de intervalos de clase.
Si se desea volver a valores originales, hay que hacer la transformación, multiplicando
por la potencia correspondiente de w.

Esquema de calculo de Charlier:


Teoría de Estadística II
Prof. Dr. Severo Sala Acosta____________________________________________________ 58

Aclaramos que en la tabla de Charlier, se trabaja con unidades intervalos de clase en


las formulas para determinar As y k, no siendo necesario usar unidades originales.

 S 
 x S
.Ni
n

Common questions

Con tecnología de IA

When testing the variance of a normal distribution, the test statistic follows a chi-square distribution with n-1 degrees of freedom, contrasting the normal or t-distribution used when testing a mean. This difference arises because variance, unlike mean, requires squaring deviation values, resulting in a chi-square distribution for hypothesis tests on variance .

More frequent data collection intervals can lead to noise in time series data analysis because shorter intervals are more susceptible to erratic, transient fluctuations that do not reflect underlying stable patterns. Such noise can obscure long-term trends and mislead analytical insights, necessitating the use of smoothing techniques or models that can differentiate between noise and actual structural changes .

The t-distribution (Student's t-test) is used to test a hypothetical mean when the sample size is small (n < 30) and the population standard deviation is unknown. The test statistic is calculated using the sample mean, sample standard deviation, and follows a t-distribution with n-1 degrees of freedom. Decision rules involve rejecting the null hypothesis if the calculated t-statistic exceeds critical values based on the significance level and degrees of freedom .

A one-tailed test is more appropriate when the research hypothesis specifies a direction of effect or difference. For example, when testing if a population mean is greater than a specified value (H1: μ > μ₀), a one-tailed test is suitable because it assesses deviation in one direction only. This is often used in quality control settings where such directional hypotheses reflect practical concerns .

A linear trend in time series analysis is characterized by a constant change rate, represented by a straight line equation (Y = b0 + b1X). An exponential trend, however, reflects a constant percentage change rate, often seen in rapidly growing or declining series. It follows an equation where the variable increases by a proportion rather than a fixed amount (YT = b0 b1^X), suitable for modeling growth processes that compound over time .

Confidence intervals and hypothesis testing are connected as both aim to make inferences about population parameters. Confidence intervals provide a range of values within which the parameter is likely to lie, while hypothesis testing assesses the likelihood of a specific parameter value. If a hypothesized value lies outside the confidence interval, it is typically considered evidence against the null hypothesis .

A small sample size impacts the choice of statistical test as it necessitates the use of the t-distribution instead of the normal distribution. This is because the t-distribution accounts for additional uncertainty in estimating population parameters from smaller samples, which tend to have higher variability and thus require a distribution with heavier tails to get accurate critical values .

Weighting factors in the computation of weighted index numbers adjust for the relative importance of different items. They ensure that more significant items (e.g., those with higher economic value or frequency) have a greater influence on the index result. This contrasts with simple indices, which may not accurately reflect the aggregate change if item significance varies .

Distinguishing between random and systematic components is crucial in time series analysis to accurately model and forecast data. Systematic components include trend and seasonal variations which represent predictable, non-random patterns, whereas random components capture unpredictable, erratic variations. Properly identifying these elements ensures that models do not overfit noise and improve the reliability of trend or seasonal forecasts .

The Central Limit Theorem justifies the use of normal distribution in hypothesis testing by stating that the sampling distribution of the sample mean approaches a normal distribution as the sample size increases, regardless of the population's distribution. This allows the use of normal distribution-based tests for large samples (n ≥ 30), facilitating inference about population parameters even if the population distribution is not normal .

También podría gustarte