EJERCICIOS UNIDAD II
1) Las valoraciones de los clientes de la puntualidad 𝑥1 , rapidez 𝑥2 y limpieza 𝑥3 de un servicio
de transporte tienen unas medias, en una escala de cero a diez, de 7, 8 y 8.5,
respectivamente, con la siguiente matriz de varianzas – covarianzas
1
𝑺 = [0.5 0.64 ]
0.7 0.6 1.44
Se construyen dos indicadores de la calidad del servicio. El primero es el promedio de las tres
puntuaciones, y el segundo es la diferencia entre el promedio de la puntualidad y la rapidez, por
un lado, y la limpieza por otro. Calcular el vector de medias y la matriz de varianzas-covarianzas
para estos dos indicadores
2) Un proceso industrial fabrica un producto cuyas características de calidad se miden por
vector de tres variables 𝒙. Cuando el proceso está en estado de control, los valores medios
de las variables deben ser (12,4,2). Para comprobar si el proceso funciona adecuadamente,
se toma una muestra de 20 elementos y se miden las tres características. La media muestral
es
̅ = (11.5; 4.3; 1.2)
𝒙
Y la matriz de covarianzas entre estas tres variables es
10 4 −5
𝑺 = [ 4 12 −3]
−5 −3 4
̂ (es decir la matriz de covarianzas que corrige por
A partir de la matriz 𝑺 encuentre la matriz 𝑺
grados de libertad).
3) Como se indicó en clase, la transformación de Box-Cox puede ser muy útil, entre otras cosas,
para homogenizar la varianza de variables cuya varianza originalmente no es constante.
Recuerde que la transformación de Box-Cox de una variable 𝑌, está dada por la siguiente
expresión
𝑌𝜆 − 1
𝑌 (𝜆) =
𝜆
y si 𝜆 ≈ 0 se obtiene la transformación logarítmica. Una forma práctica sugerida por algunos
autores para estimar 𝜆 cuando se cuenta con una serie de datos anuales, consiste en hacer grupos
de 5 o 6 observaciones consecutivas de la serie original y calcular las respectivas medias y
desviaciones estándar de cada grupo, denominadas 𝑌̅𝑖 y 𝑆𝑌𝑖 , respectivamente. Si se cuenta con
datos mensuales, se sugiere hacer grupos de 12 observaciones. En cualquier caso, el parámetro
𝜆 se puede estimar a partir de la pendiente de la regresión por MCO
ln 𝑆𝑌𝑖 = 𝛽 + (1 − 𝜆) ln 𝑌̅𝑖
Para 𝑖 = 1,2, … , 𝐺, donde 𝐺 representa el número de grupos que se han formado. Una vez
estimado el parámetro 𝜆 se procede a aplicar la transformación de Box-Cox sobre los datos
originales. La idea es que la varianza de la variable transformada muestre mayor constancia que
la de la variable original.
La base “Tasa de interés.dta” contiene datos mensuales sobre el tipo de interés a un año del
mercado secundario de letras del Tesoro, en Estados Unidos para el período julio de 1959 –
agosto de 2001. Con esos datos se pide:
a) Graficar la serie y comentar si esta parece ser estable en varianza o no.
b) En caso de que su respuesta en el literal anterior sea negativa, estimar el valor de 𝜆
utilizando el método antes descrito
c) Utilizando su estimación de 𝜆, aplicar la transformación de Box-Cox a la serie original, y
graficar la serie transformada. ¿Sugiere la nueva gráfica que se ha estabilizado la
varianza?
4) Suponga la variable 𝑋, y una transformación no lineal 𝑌 = 𝑔(𝑋). Usando los tres primeros
términos del desarrollo de series de Taylor alrededor de 𝑋̅, encuentre una formulación para
hallar 𝑌̅. Muestre paso a paso el desarrollo de su respuesta
5) Extendiendo el resultado anterior, sea 𝑍 = ℎ(𝑋, 𝑌) una transformación no lineal de 𝑋 y 𝑌.
Se puede demostrar que
𝜎𝑥2 𝜕 2 ℎ(𝑋, 𝑌) 𝜎𝑦2 𝜕 2 ℎ(𝑋, 𝑌)
𝐸(𝑍) ≈ ℎ(𝜇𝑥 , 𝜇𝑦 ) + | + |
2 𝜕𝑋 2 𝑥=𝜇𝑥 2 𝜕𝑌 2 𝑥=𝜇𝑥
𝑦=𝜇𝑦 𝑦=𝜇𝑦
a) Utilizando el resultado anterior, encuentre de manera aproximada el valor esperado de 𝑍 =
√𝑋 2 + 𝑌 2 , considerando las variables aleatorias 𝑋 y 𝑌 con función de densidad conjunta dada
por
4𝑥𝑦, 0 < 𝑥 < 1; 0 < 𝑦 < 1
𝑓(𝑥, 𝑦) = {
0, 𝑐. 𝑜. 𝑣
b) Ahora encuentre de manera exacta el valor esperado de 𝑍 y calcule el error de aproximación
resultado de aplicar el método del literal previo.
6) Sea 𝑍 = 𝑔(𝑋, 𝑌) una transformación no lineal de 𝑋 y de 𝑌. Encuentre de manera
aproximada, utilizando la expresión dada en el ejercicio anterior, el valor esperado de 𝑍 =
𝑋 2 𝑌, considerando la siguiente función de densidad conjunta para 𝑋 y 𝑌
𝑥 + 𝑦, 0 < 𝑥 < 1, 0 < 𝑦 < 1
𝑓(𝑋, 𝑌) = {
0, 𝑐𝑜𝑣
7) Considere la siguiente matriz de datos, 𝑋. Los datos corresponden a n= 10 modelos de
automóviles, a los cuales se les ha medido p=5 atributos, a saber: consumo (1/100km),
cilindrada (cc), potencia (cv), peso (kg) y aceleración (segundos de 0 a 100 km/h).
CASO Consumo Cilindrada CV Peso Aceleración
Motor (Potencia)
1 13 5.031 130 1.168 12
2 16 5.735 165 1.231 12
3 13 5.211 150 1.145 11
4 15 4.982 150 1.144 12
5 14 4.949 140 1.149 11
6 16 7.030 198 1.447 10
7 17 7.440 220 1.451 9
8 17 7.210 215 1.437 9
9 17 7.456 225 1.475 10
10 16 6.391 190 1.283 9
MEDIA 15,4 6.144 178.3 1.293 10,5
Utilizando los comandos en STATA que considere necesarios:
a) Testee la hipótesis de normalidad multivariante, usando el método gráfico visto en clase
y un método formal
b) Interprete los resultados obtenidos
8) La base “Felicidad e ingresos esperados.dta” contiene información de cuatro variables para
un grupo de 1622 jóvenes de ambos sexos, entre los 14 y los 18 años, estudiantes de algunos
colegios del Azuay y Cañar. Las variables son:
felicidad: Nivel de felicidad auto percibido. Variable medida en una escala de 0 a 10, donde
0 indica que el joven -considerando todos los aspectos de su vida- considera que es
extremadamente infeliz, y 10 indica que el joven considera que es extremadamente feliz.
espera_ganar: Ingreso mensual en dólares que el joven consideraría justo ganar cuando
empiece a trabajar.
cree_ganar: Ingreso mensual en dólares que el joven cree que realmente ganará cuando
empiece a trabajar
sexo: Sexo del joven encuestado
Con dicha data se pide:
a) Construya el diagrama de dispersión múltiple e interprete los resultados
b) Construya un diagrama de caja para cada variable métrica, y posteriormente construya
los diagramas de caja para las mismas variables, pero agrupados por la variable sexo
c) Para las variables métricas, testee la existencia de atípicos a nivel univariante usando un
método gráfico y dos métodos no gráficos.
d) Ahora testee la existencia de atípicos a nivel bivariante.
e) Considerando únicamente las variables métricas, obtenga, usando los comandos
apropiados de Stata, el vector de medias, la matriz de varianzas-covarianzas, la matriz de
correlaciones y las correlaciones parciales. Interprete los resultados
f) Calcule el coeficiente de determinación múltiple para cada variable métrica, en función
de las demás variables e interprete los resultados
1
̂ = 𝟏 𝑿′ 𝑷𝑿, calcule
̅ = 𝑿′ 𝟏 y 𝑺
g) Utilizando las expresiones vistas en clase: 𝒙 𝑛 𝒏−𝟏
nuevamente el vector de medias y la matriz de varianzas covarianzas utilizando Stata
h) Considerando únicamente las variables medidas en dólares, obtenga las medidas
globales de variabilidad vistas en clase. Ahora estandarice todas las variables métricas y
obtenga las mismas medidas de variabilidad
i) Utilizando Stata y considerando únicamente los primeros 10 casos de las variables
métricas, obtenga las distancias: euclídea cuadrado, distancia absoluta, distancia
euclídea ponderada con elementos de la matriz de ponderaciones igual a las varianzas de
las variables, y la distancia de Mahalanobis. Interprete los resultados
9) Utilizando la base “Datos perdidos.xls”, usada en el taller de clase, analice los patrones de
datos ausentes para la variable v2. Interprete los resultados
10) Utilizando la base “Precio viviendas.dta” proporcionada en clase, testear la normalidad de la
variable precio_miles utilizando las pruebas de Kolmogorov-Smirnov y Ji-Cuadrada para la
bondad de ajuste.
11) Dentro de una investigación acerca de los hábitos de estudio de los alumnos de un colegio,
se levantó información de dos variables: el número de horas a la semana que dedican a
estudiar matemáticas (V1) y el sexo (V2), donde esta última es una variable binaria que toma
el valor de 1 si el estudiante es mujer y 0 si es hombre. La Tabla 1 presenta información de
estas dos variables, considerando una muestra de 40 observaciones. Como se puede
observar, la variable V1 presenta varios datos ausentes. Utilizando la técnica que considere
conveniente, evalúe formalmente si existe evidencia de un patrón sistemático de datos
ausentes o no. Para cualquier test que aplique, utilice un nivel de significancia del 5%.
12) Busque datos reales en los que a su criterio se pueda aplicar un diagrama de radar. Construya
en Stata dicho diagrama e interprete los resultados (Cada estudiante deberá tener un
ejemplo distinto)
Tabla 1
Id V1 V2 Id V1 V2
1 2 1 21 4.3 1
2 0 22 3.5 1
3 3.1 0 23 4 1
4 5 0 24 1
5 4.5 1 25 3.7 0
6 0 26 0
7 2.3 1 27 4.6 1
8 1 28 7 1
9 1.2 1 29 1.5 1
10 7.3 0 30 5.3 0
11 4.4 1 31 0
12 5.6 0 32 4.2 1
13 6 1 33 5.3 1
14 4.3 1 34 1
15 0 35 4.1 0
16 0 36 1
17 2.6 0 37 2.9 0
18 1 38 0
19 3.3 0 39 6 0
20 0 40 4.7 1
Id identifica al individuo