0% encontró este documento útil (0 votos)
41 vistas51 páginas

Unido Eval 1

La econometría, resultado de cierta perspectiva sobre el papel que desempeña la economía, consiste en la aplicación de la estadística matemática a los datos económicos para dar soporte empírico a los modelos construidos por la economía matemática y obtener resultados numéricos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
41 vistas51 páginas

Unido Eval 1

La econometría, resultado de cierta perspectiva sobre el papel que desempeña la economía, consiste en la aplicación de la estadística matemática a los datos económicos para dar soporte empírico a los modelos construidos por la economía matemática y obtener resultados numéricos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

#El siguiente documento servir?

para que conozcan el tipo de variables que existe en R


### Tipos de variables
#numericas
2+2
a<- 2+2 #defino el nombre de la variable y del lado derecho lo que contiene
b= log(0) #logaritmo
c<- exp(1) #exponencial
d<- sqrt(69) #raiz
e<- a+c-d #suma de otras variables
trunc(e) #solo muestra la variable e en enteros
?round #permite acceder a la ayuda
round(e,2) #muestra la variable e con dos decimales
f<- c(2,4,6,8,10) #creo una lista variables numericas, c significa concatenar (unir)
h<- f*2 #la lista puede ser modificada con operaciones numericas

#logicas (YES/NO)
is.logical(a) #consulto si la variable a es logica, no lo es es numerica por eso dice FALSE
is.numeric(a) # ahora si es TRUE (verdad)
is.na(f) # consulto si en la variable f hay NA es decir sin valores, me dice FALSE en todos significa que todos tienen valores
g<- h==f # al poner == significa que estoy comparando sila variable h es igual a f, me responde por cada uno y me dice que es
falso que no es uno igual al otro
i<- h==2*f #pregunto si h es dos veces f y me responde que es verdadero en cada caso

#caracteres
j<- c("andres", "juan", "viviana", "julia") #son caracteres (letras) por tanto se deben poner en comillas, caso contrario cree
que son numericas y obtienes un error
str(j) # la funcion me permite ver que tipo de variable es, en este caso chr significa caracter
k<-j*2 # no puedes hacer operaciones numericas porque son caracteres
l<- c("rodriguez", "montalvo","romero", "cruz") # ingreso otra variable con caracteres
m<- rbind(j,l) #junte las dos variables por fila, la primera fila es por nombre y la segunda es de apellidos
n<- cbind(j,l) #junto las dos variables por columna, la primera columna es de nombres y la segunda de apellidos

#matrices
o<- matrix(NA, nrow = 3, ncol = 2) #cree una matriz sin valores de 3 filas y 2 columnas
o[,1]<- c(5,6,7) #llene la primera columna con valores
o[,2]<- c(8,9,10) #llene la segunda columna con valores
colnames(o)<- c("edad","talla") #les di nombre a las columnas
row.names(o)<- c("12 meses", "24 meses","36 meses") # le di nombre a las filas
o #ahora tiene una matriz con mejor presentacion y con valores
p<-c(2,4) #creo una variable con 2 valores
q<-rbind(o,p) #uno por fila la matriz o con la variable p, me da como resultado una matriz
row.names(q)[4]<- c("48 meses") #cambio el nombre de la fila 4
q #ahora tengo una matriz de 4x2

#listas y dataframes
r<- list(f,j,q) #una lista puede contener muchas variables, en este caso numerica, caracter y matriz
r[1] #accedo a el primer objeto de la lista
s<- data.frame(columna1=c(5,10,15),columna2=c("d","e","f")) #un data frame puede contener valore numericos y
caracteres. Fijate que ahora antes de ingresar la informacion ya le di un nombre a la columna
s[1,] #accedo a la primera fila del data frame

#factores
t<- c("quito","guayaquil","cuenca", "quito", "machala", "ibarra", "guayaquil","otavalo","quito")
u<-as.factor(t) # convierte los caracteres en factores. Encuentra los caracteres similares y les da un valor numerico, estos los
denomina como levels
summary(u) # si hacemos un resumen de la variable me dice cuantas veces se repite cada uno

###manipulacion de bases de datos


NROW(j) #numero de filas
NCOL(p) #numero de columnas
table(t) #numero de veces que se repite cada variable
colSums(o) #la suma de cada columna
rowSums(o) # la suma de cada fila
order(h,decreasing = T) #ordena de mayor a menor. Si se quiere de menor a mayor se pone decreasing=F
summary(o) # nos da el minimo, media, mediana, maximo y quartiles. Siempre que sean valores numericos
max(h) #da el maximo
min(f) # da el minimo
range(h) #da el min y max
v<- as.data.frame(q) #convertimos una matriz en dataframe
v[v$edad>5,] #filtro el data frame por filas que tengan edad mayor a 5
v[v$talla>9 & v$edad>5,] #filtro el data frame por filas que tengan edad mayor a 5 y filas con talla mayor a 9
t[!duplicated(t)] # duplicated encuentra duplicados, poner !da lo opuesto. Es decir me muestra solo lasciudades sin
duplicados
#Practica 2
#https://cran.r-project.org/bin/windows/Rtools/rtools42/rtools.html #descargar rTools
#https://git-scm.com/download/win #descargar Git
#install.packages("devtools")
#library(devtools)
#install_git("https://github.com/ccolonescu/PoEdata")
#library(PoEdata)
#data("andy")#data llama a la base de datos "andy"
#write.csv(andy,"andy.csv")
#data("cps_small")
#write.csv(cps_small,"cps_small.csv")

rm(list=ls())# limpia todo lo que esta en enviroment


getwd()#Permite ver cual es la direccion actual de los documentos, en esta direccion R busca documentos o guarda
documentos
read.csv("andy.csv")
setwd("C:/Users/DELL/Documents/ESPE/Econometria basica/Práctico/R") #Cambia la carpeta donde R va a usar como
direccion actual
read.csv("andy.csv")
data<- read.csv("andy.csv")
remove(data)
choose.files() #Para escoger la direccion de un archivo
andy<- read.csv("C:\\Users\\DELL\\Documents\\ESPE\\Econometria basica\\Práctico\\R\\andy.csv")
head(andy) #las primeras filas de la base de datos
tail(andy) #las ultimas filas de la base de datos
str(andy) # la estructura de los datos
View(andy) #muestra la base de datos en una pestana
fix(andy) #muestra la base de datos en una ventana
dim(andy) #dimension filas y columnas
ncol(andy) #columnas
nrow(andy) #filas
names(andy) #nombre de las variables(columnas)
sum(andy$sales) #para llamar una columna dentro de una variable se pone $
attach(andy) #permite acceder facilmente a las variables
sum(sales) #ahora no tengo que poner el nombre de la base de datos, solo pongo el nombre de la columna que me interesa
detach(andy) #elimino el attach de la base de datos andy
sum(sales) #ahora ya me da un error porque no sabe que es una columna de la base andy
write.csv(andy,"base1.csv") #me guardara la base andy como "base1" como csv en el working directory
write.table(andy,"base2.txt") #me guardara la base andy como "base1" como txt en el working directory

install.packages("readxl") #Instala una libreria para traer archivos desde excel


library(readxl) # llamo a la libreria, si no lo hago, no puedo usarla
cps_small <- read_excel("KAREN/ESPE/V NIVEL/ECONOMETRIA BASICA (8377)/MATERIA/cps_small.xlsx") #importo de excel
los datos
head(cps_small)
summary(cps_small$educ)
table(cps_small$educ)
table(cps_small$wage,cps_small$educ)
plot(cps_small$educ, cps_small$wage,xlab="education", ylab="wage", #grafico relaciona Y con X
main="Relacion educacion vs ingreso",col="darkblue")
abline(lm(cps_small$wage~cps_small$educ),col="red") #grafico de regresion lineal
cor(cps_small$wage,cps_small$educ) #correlacion
cov(cps_small$wage,cps_small$educ) #covarianza
mean(cps_small$wage) #media (promedio)
sd(cps_small$wage) #desv. estandar
var(cps_small$wage) #varianza
median(cps_small$wage) #mediana
hist(cps_small$wage) #error porque la variable esta como character
cps_small$wage<- as.numeric(cps_small$wage) # la converti en numerico
hist(cps_small$wage) #ahora no me da error
#otros graficos: barplot(barras con categorias); pie(grafico de pastel)

## Distribuciones de probabilidad discretas


#Considere lanzar un dado
sample(1:6,1) #simulamos un resultado aletorio
probabilidad<- rep(1/6,6)# cada una tiene probabilidad de 1/6
cum_probabilidad<- cumsum(probabilidad)
plot(cum_probabilidad, xlab = "resultados", main = "Distribucion de probabilidad acumulada")
#Lanzamos una moneda
sample(c("C", "S"), 1) #cara o seca sigue una distribucion bernuolli
dbinom(x = 5,size = 10,prob = 0.5) # Si lanzamos 10 veces cuantas veces obtenemos 5 caras P(k|n,p)
sum(dbinom(x = 4:7, size = 10, prob = 0.5)) #Ahora queremos saber cual es la probabilidad que caiga 4,5,6 o 7 veces cara
pbinom(size = 10, prob = 0.5, q = 7) - pbinom(size = 10, prob = 0.5, q = 3) #es igual que la linea anterior P(4<=k<=7)= P(k<=7)-
P(k<=3)
#FDP
k <- 0:10 # Al lanzar una moneda 11 veces
probability <- dbinom(x = k,size = 10, prob = 0.5) #vemos la probabilidad en cada caso
plot(x = k, y = probability,main = "Funcion de disribucion de la probabilidad")
#FDA
prob <- pbinom(q = k,size = 10, prob = 0.5)#obtenemos probabilidades acumuladas
plot(x = k,y = prob, main = "Funcion de distribucion acumulada")
# Esperanza E(Y)=y1*p1+y2*p2+...+yn*pn=sumatoria(yi*pi)
set.seed(1) #tomamos una semilla para que sea reproducible
mean(sample(1:6, 10000, replace = T))#la esperanza de botar un dado 10.000 veces
# Varianza sigma^2= var(Y)= E[(Y-u)^2]= sumatoria((yi-uy)^2*pi). Ojo la funcion var es la varianza muestral S^2=(1/n-
1)*sumatoria(yi-y_barra)^2
var(sample(1:6, 10000, replace = T))#varianza muestral
var(1:6) #varianza poblacional
#funciones de distribuciones de probabilidad en R: CDF=func.distr.prob.acum; PDF=func.densidad.probab.
# d=density (funcion de probabilidad)
# p=probability (funcion de distribucion acumulada)
# q=quantile (funcion inversa de la distribucion acumulada)
# r= random (generador numeros aleatorios)
#normal
curve(dnorm(x),xlim = c(-3.5, 3.5),ylab = "Densidad",
main = "Funcion estandar de densidad normal") # N(0,1)
dnorm(x = c(-1.96, 0, 1.96)) # calcula la densidad cuando x=-1.96, x=0 y x=1.96
curve(pnorm(x), xlim = c(-3.5, 3.5), ylab = "Probability",
main = "Funcion de disribucion normal estandar acumulativa")
1 - 2 * (pnorm(-1.96)) #la probabilidad que una normal estandarizada este entre -1,96 y 1,96 es P(-1.96<=Z<=1.96)= 1-
2*P(Z<=1.96)
pnorm(4, mean = 5, sd = 5) - pnorm(3, mean = 5, sd = 5) # Si Y~N(5;25) queremos saber P(3<=Y<=4) con u=0;sigma=1
#binomial
dbinom(32, 100, 0.5) #probability mass function Pr(X=x)
pbinom(32, 100, 0.5) #cumulative distribution function P(X<=x)
qbinom(0.3,100,0.5) #the p-th quantile of binomail distribution
rbinom(1000,100,0.5) #random binomial distribution
ECONOMETRÍA BÁSICA
Docente: Danny Moreno B.
¿QUÉ ES LA ECONOMETRÍA?

En términos literales significa “medición económica”

Consiste en la aplicación de la estadística matemática a


los datos económicos para dar soporte empírico a los
modelos construidos por la economía matemática y
obtener resultados numéricos

Puede definirse como el análisis cuantitativo de


fenómenos económicos reales basados en el desarrollo
simultaneo de la teoría y la observación, relacionados
mediante métodos apropiados de inferencia
METODOLOGÍA TRADICIONAL DE LA
ECONOMETRÍA
1.Planteamiento de la teoría o de la hipótesis
• Por ejemplo: Keynes postula que la propensión marginal a consumir
(PMC), es decir, la tasa de cambio del consumo generado por una unidad
(digamos, un dólar) de cambio en el ingreso, es mayor que cero pero
menor que uno.
2.Especificación del modelo matemático
• En el ejemplo: Planteamos que 𝑌 = 𝛽1 + 𝛽2 𝑋 donde 0 < 𝛽2 < 1
• Donde Y= gasto de consumo (variable dependiente)
• X= ingreso (variable independiente o explicativa)
• 𝛽1 , 𝛽2 = parámetros del modelo, intercepto y pendiente respectivamente
• La anterior ecuación se conoce como función de consumo. Es un modelo
uniecuacional (una sola variable).
METODOLOGÍA TRADICIONAL DE LA
ECONOMETRÍA

3.Especificación del modelo econométrico


• El modelo planteado supone una relación exacta o determinista,
las variables no siempre lo son.
• Se incluye el termino de error o perturbación, es una variable
aleatoria (estocástica) con propiedades probabilísticas definidas.
• El modelo sería: 𝑌 = 𝛽1 + 𝛽2 𝑋 + μ que se conoce como un
modelo de regresión lineal.
4.Obtención de datos
• Para realizar la estimación son necesarios los datos, para el
ejemplo la economía de EEUU de 1960 a 2005 en términos reales
METODOLOGÍA TRADICIONAL DE LA
ECONOMETRÍA
5.Estimación del modelo econométrico
• La técnica estadística es el análisis de regresión
• En nuestro ejemplo 𝛽1 = −299,5913 y 𝛽2 = 0,7218, la función de consumo es
• 𝑌෠𝑡 = −299,5913 + 0,7218 𝑋𝑡
• El sombrero sobre Y indica que es un valor estimado.
• Se puede interpretar el resultado como el promedio del gasto de consumo
aumentó alrededor de 72 centavos por cada dólar de incremento en el ingreso
real
6.Pruebas de hipótesis
• En el supuesto tenga una aproximación buena a la realidad, se debe establecer
criterios si los valores estimados concuerdan con las expectativas de la teoría.
• Keynes señala que la PMC está entre cero y uno, en nuestro caso confirmamos la
teoría ya que obtuvimos 0,72.
• Antes de aceptar la teoría es necesario asegurarnos que no fue debido al azar el
resultado. Es necesario comprobar si es estadísticamente menor que 1, para ello
se usa inferencia estadística (pruebas de hipótesis).
METODOLOGÍA TRADICIONAL DE LA
ECONOMETRÍA
7.Pronostico o predicción
• Si el modelo fue correcto y no refutó la teoría, entonces podemos realizar
predicciones de la variable dependiente o explicativa. Si queremos predecir el
gasto en consumo para 2006 cuando el PIB de 2006 fue 11.319,4 millones,
entonces:
• 𝑌෠2006 = −299,5913 + 0,7218 11.319,4 = 7.870,7516
• El valor real fuel de 8.044 millones. El modelo por lo tanto subpredijo, se podría
decir que el error de predicción fue de aproximadamente 174.000 millones,
alrededor de 1,5% del valor real.
1 1
Utilización
• Si lo usamos
del modelo
para obtener
para fines
el multiplicador
de control o de
depolíticas
ingreso 𝑀 = = = 3,57
1−𝑃𝑀𝐶 1−0,72
• Si el gobierno plantea que el consumo se mantenga en 8750 miles de millones
USD, para mantener la tasa de desempleo en 4,2%. ¿Qué nivel de ingreso debería
tener?
• 8.750 = −299,5913 + 0,7218(𝑋2006 )
• El resultado es X = 12.537 aproximadamente. Es decir, el nivel de ingresos de
12.537 miles de millones de USD con un PMC de cerca de 0,72 producirá un
consumo aproximado de 8.750 miles de millones de USD.
TIPOS DE ECONOMETRÍA

Econometría

Econometría Econometría
teórica aplicada

Clásica Bayesiana Clásica Bayesiana


REQUISITOS MATEMÁTICOS Y
ESTADÍSTICOS

Cálculo Algebra lineal Probabilidad

Estadística Inferencia Programación


¿QUÉ ES LA REGRESIÓN?
Origen Histórico
• Francis Galton acuñó el término regresión. En un famoso ensayo, Galton planteó que, a pesar de
la tendencia de los padres de estatura alta a procrear hijos altos y los padres de estatura baja,
hijos bajos, la estatura promedio de los niños de padres de una estatura determinada tendía a
desplazarse, o “regresar”, a la estatura promedio de la población total.
• Pearson descubrió que la estatura promedio de los hijos de un grupo de padres de estatura alta
era menor que la estatura de sus padres, y que la estatura promedio de los hijos de un grupo de
padres de estatura baja era mayor que la estatura de sus padres; es decir, se trata de un
fenómeno mediante el cual los hijos altos e hijos bajos “regresan” por igual a la estatura promedio
de todos los demás. En palabras de Galton, se trata de una “regresión a la mediocridad”.

Interpretación moderna
• El análisis de regresión trata del estudio de la dependencia de una variable (variable dependiente)
respecto de una o más variables (variables explicativas) con el objetivo de estimar o predecir la
media o valor promedio poblacional de la primera en términos de los valores conocidos o fijos (en
muestras repetidas) de las segundas.
EJEMPLOS DONDE SE USA REGRESIONES
• ¿Cómo cambia la estatura promedio de los hijos dada la estatura de los padres?
• Un monopolista que puede fijar el precio o la producción (pero no ambos
factores) tal vez desee conocer la demanda de un producto con diversos precios.
Tal experimento permite estimar la elasticidad del precio (es decir, la respuesta
a variaciones del precio) de la demanda del producto y permite determinar el
precio que maximiza las ganancias
• Un economista laboral quizá desee estudiar la tasa de cambio de los salarios
monetarios o nominales en relación con la tasa de desempleo. La curva de esta fi
gura es un ejemplo de la célebre curva de Phillips, que relaciona los cambios en
los salarios nominales con la tasa de desempleo
• El director de marketing de una compañía tal vez quiera conocer la relación entre
la demanda del producto de su compañía con el gasto de publicidad, por
ejemplo. Un estudio de este tipo es de gran ayuda para encontrar la elasticidad
de la demanda respecto de los gastos publicitarios, es decir, el cambio
porcentual de la demanda en respuesta a un cambio de 1 por ciento, por ejemplo,
en el presupuesto de publicidad
REGRESIÓN VS CORRELACIÓN

Correlación:
Causalidad: Señala
Correspondencia o
que existe una Ejemplo: Tocar fuego
relación reciproca
relación entre una quema
entre dos o más
causa y un efecto
variables

Ejemplo: En la última
década la cantidad de
personas calvas se PUEDE EXISTIR
CORRELACIÓN NO
incremento. De igual CORRELACIÓN POR
IMPLICA CUSALIDAD
manera lo hizo el CASUALIDAD
shampoo para cabello
REGRESIÓN VS CORRELACIÓN
Análisis de correlación
• El objetivo principal es medir el grado de asociación lineal entre dos variables
• El coeficiente de correlación mide esta fuerza de asociación
• Por ejemplo: fumar y cáncer de pulmón

Análisis de regresión
• Trata de estimar o predecir el valor promedio de una variable con base en los
valores fijos de otras
• Por ejemplo: Predecir el promedio de calificaciones de un examen de un examen
de microeconomía aplicada en base a las calificaciones de microeconomía básica.

Diferencia
• En el análisis de regresión hay una asimetría en el tratamiento a las variables
dependientes y explicativas. Supone que la variable explicativa es aleatoria con
una distribución de probabilidad. Mientras la explicativa tiene valores fijos.
• En la correlación son dos variables cualesquiera en forma simétrica, no hay
distinción entre variable dependiente y explicativa.
TERMINOLOGÍA Y NOTACIÓN
TIPOS DE DATOS: SERIES DE TIEMPO
TIPOS DE DATOS: DATOS DE PANEL
DOCUMENTOS

• Se envió dos archivos:


• 1) Es una guía para descargar e instalar R y Rstudio
• 2) Es un documento script para que se familiaricen con las variables que existen en
R, como tratarlas y como manejar bases de datos.
1.1. ¿Qué es la econometría?

La econometría, resultado de cierta perspectiva sobre el papel que desempeña la economía, consiste en
la aplicación de la estadística matemática a los datos económicos para dar soporte empírico a los
modelos construidos por la economía matemática y obtener resultados numéricos.

Esta ciencia busca evidenciar, mediante datos empíricos, las relaciones que tienen las variables
económicas y entender su relación con los fenómenos económicos.

En economía, se realizan muchos supuestos teóricos. La destreza del econometrista radica en convertir
estos en ecuaciones matemáticas para la verificación empírica de la teoría económica.

A diferencia de un estadístico o un matemático, el econometrista puede combinar los conceptos con la


teoría económica y brindar un mejor análisis sobre el efecto de las variables.

La metodología clásica implica seguir los lineamientos de una investigación empírica;


consideraremos la teoría keynesiana de consumo.
1.Planteamiento de la teoría o de la hipótesis

Keynes señala que la propensión marginal a consumir (PMC) es la tasa de variación del consumo dividido
para la tasa de variación del ingreso. Puede ser mayor que cero y menor que uno.

2. Especificación del modelo matemático de la teoría


El modelo plantea que donde Y = gasto de consumo; x ingreso;

parámetros del modelo, intercepto y pendiente, respectivamente

Entonces, la pendiente mide la PMC. Esta ecuación plantea una relación lineal entre el consumo y el
ingreso, conocida en economía como la función consumo.

Si un modelo tiene más de una ecuación, se lo conoce como multiecuacional, caso contrario
uniecuacional. En la ecuación descrita, del lado izquierdo está la variable dependiente (consumo) y del
lado derecho están las variables independientes o explicativas (ingreso).

3. Especificación del modelo econométrico o estadístico de la teoría


En el caso anterior asumimos que existe una relación exacta o determinista entre el consumo y el
ingreso. Pero las relaciones de variables económicas suelen ser inexactas, porque existen más variables
que afectan al consumo además del ingreso. Por tanto, se modificaría la ecuación:

Donde V es el término de perturbación o de error. Es una variable aleatoria (estocástica) con


propiedades probabilísticas bien definidas. Representa el resto de factores, además del ingreso que
afecta al consumo. A esta ecuación se la conoce como un modelo de regresión lineal.

4. Obtención de datos

Para llevar a cabo el modelo es necesario tener datos numéricos

5. Estimación de los parámetros del modelo econométrico

La técnica estadística de análisis de regresión es la herramienta principal para obtener estimaciones. En

nuestro ejemplo , la función de consumo es:

-299,5913 + 0,7218Xt

El sombrero sobre Y indica que es un valor estimado. Se puede interpretar el resultado como que el
promedio del gasto de consumo aumentó alrededor de 72 centavos por cada dólar de incremento en el
ingreso real.

6. Pruebas de hipótesis

En el supuesto de que tenga una aproximación buena a la realidad, se deben establecer criterios si los
valores estimados concuerdan con las expectativas de la teoría. Keynes señala que la PMC está entre
cero y uno; en nuestro caso, confirmamos la teoría, ya que obtuvimos 0,72.
Antes de aceptar la teoría es necesario asegurarnos de que no fue debido al azar el resultado. Es
indispensable comprobar si es estadísticamente menor que I, para ello se usa inferencia estadística
(pruebas de hipótesis).

7. Pronóstico o predicción

Si el modelo fue correcto y no refutó la teoría, entonces podemos realizar predicciones de la variable
dependiente o explicativa. Si queremos predecir el gasto en consumo para 2006, cuando el PIB de 2006
fue 11.319,4 millones, entonces:

El valor real fue el de 8044 millones. El modelo, por lo tanto, subpredijo, se podría decir que el error de
predicción fue de aproximadamente 174 000 millones, alrededor de 1 ,5 % del valor real.

Si queremos obtener el multiplicador del ingreso, que mide el cambio en el ingreso generado por un
cambio de un dólar en gasto en inversión

8. Utilización del modelo para fines de control o de políticas

Si el gobierno considera que mantener un gasto de 8750 miles de millones de dólares mantendrá la tasa
de desempleo en su nivel actual de cerca de 4,2 %, ¿qué nivel de ingreso será necesario para mantener
el consumo fijo como meta?

El resultado es X = 12 537, aproximadamente; es decir, el nivel de ingresos de 42 537 miles de millones


de USD. con un PMC de cerca de 0,72 producirá un consumo aproximado de 8750 miles de millones de
USD.

1.1.2. Tipos de econometría

La econometría se divide en teoría y aplicación. Dentro de cada una de estas se puede realizar
econometría clásica (frecuentista) o bayesiana.

En este curso, solo trataremos la econometría clásica. Realizaremos varios ejemplos aplicados a la
práctica usando el software R, Stata y E-views.
1.1.3. Requisitos matemáticos y estadísticos

Es requisito indispensable el manejo de cálculo, álgebra lineal, probabilidad, estadística e inferencia. En


caso de que requiera una actualización, debe leer el material indicado en el sílabo.

1.2. Modelos uniecuacionales

La metodología clásica implica seguir los lineamientos de una investigación empírica; consideramos la
teoría keynesiana de consumo

La regresión

La regresión busca analizar la dependencia de una variable (dependiente) respecto a otra


(independiente) u otras variables, para estimar o predecir el valor promedio poblacional de Y en función
de términos de X.

Deseamos averiguar cómo cambia la distribución de estaturas de los hijos versus los padres.

Una recta de regresión nos muestra que el promedio de la estatura de los hijos aumenta conforme crece
la de los padres.

Figura 1

Distribución hipotética de estaturas hijos correspondientes a padres


En la regresión, lo que interesa es la dependencia estadística no la determinista (funcional). Cuando
existe dependencia estadística, existe una variabilidad intrínseca (aleatoria) en la variable dependiente,
que no puede explicarse en su totalidad por las variables independientes; mientras que cuando existen
fenómenos deterministas no existen errores.

Si bien la regresión tiene que ver con la dependencia de una variable respecto a otras, no significa
causalidad. Una relación estadística por sí misma no puede (por lógica) implicar causalidad. Para ello se
debe acudir a consideraciones a priori o teóricas.

La correlación tiene como objetivo medir el grado de asociación lineal (fuerza) entre dos variables. La
correlación y la regresión son distintas. En la regresión, hay una simetría en el tratamiento de variables
dependientes y explicativas; mientras

Terminología y notación
La variable dependiente puede tomar varios nombres: variable explicada, predicha, regresada,
respuesta, endógena, resultado, variable controlada. Por su parte, la variable explicativa puede tomar
los siguientes nombres: variable independiente, predictora, regresora, estímulo, exógena, covariante,
variable de control.

Cuando existe una variable dependiente y solo una o dos variables explicativas, se conoce como un
análisis de regresión simple. Si son más de dos, se conoce como análisis de regresión múltiple.

Hay tres tipos de datos disponibles para el análisis empírico:

Series de tiempo
Series transversales
Información combinada

Por convención, la notación kit señala que el subíndice i es para datos transversales y t para series de
tiempo.
ECONOMETRÍA BÁSICA
Docente: Danny Moreno B.
ANÁLISIS DE REGRESIÓN CON DOS
VARIABLES
El análisis de regresión se
La regresión bivariante o con relaciona en gran medida con la
El análisis de regresión múltiple,
dos variables, es donde la estimación o predicción de la
en donde la regresada se
variable dependiente media (de la población) o valor
relaciona con más de una
(regresada) se relaciona con una promedio de la variable
regresora, es una extensión
sola variable explicativa dependiente con base en los
lógica del caso de dos variables
(regresora) valores conocidos o fijo de la
variable explicativa

El valor esperado, esperanza o El valor medio calculado a partir Consideremos un ejemplo


media poblacional de una de una muestra de valores práctico para presentar las
variable aleatoria Y se denota tomada de una población Y se ideas fundamentales del análisis
con el símbolo E(Y) denota como 𝑌𝑌� (“Y barra”) de regresión
INGRESO FAMILIAR
Las familias se dividen También muestra los
Los datos muestran la
en 10 grupos de gastos semanales de
población de 60 familias
ingresos de (80 a 260 cada familia por cada
de una comunidad.
USD) grupo

Entonces hay 10 valores


El consumo semanal por En promedio el consumo
fijos X y valores
familia varía en cada semanal se incrementa a
correspondientes Y para
nivel de ingreso medida que aumenta el
cada valor X. Hay 10
considerado ingreso
subpoblaciones de Y
INGRESO FAMILIAR
El valor esperado Uniendo los puntos negros
Los puntos oscuros
incondicional del consumo obtenemos la línea de
Los 10 valores E(Y|X) se muestran los valores
es E(Y). Sumamos el regresión poblacional
los conoce como valores medios condicionales de Y,
consumo semanal de las 60 (LRP) o la curva de
esperados condicionales graficados en función de
familias y dividimos para regresión poblacional
diferentes valores de X
60 es igual a 121.20 (CRP)

Es decir, es la regresión Para cada valor X existe


Es la curva que conecta las
entre Y sobre X. Se una población de valores Y
medias de las
denomina “poblacional” que se distribuyen
subpoblaciones de Y que
porque en este ejemplo alrededor de la media
corresponden a los valores
trabajamos con la (condicional) de dichos
dados de la regresora X
población valores Y
LA FUNCIÓN DE REGRESIÓN POBLACIONAL
(FRP)

La función de esperanza Denota que el valor Si asumimos que el


condicional (FEC), función esperado de la distribución consumo tiene una
de regresión poblacional Y dada 𝑋𝑋𝑖𝑖 se relaciona regresión lineal con el
(FRP) o regresión funcionalmente con 𝑋𝑋𝑖𝑖 . Es ingreso. Podemos suponer
poblacional (RP) decir dice como la media
𝐸𝐸 𝑌𝑌 𝑋𝑋 = 𝛽𝛽1 + 𝛽𝛽2 𝑋𝑋𝑖𝑖
𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 = 𝑓𝑓(𝑋𝑋𝑖𝑖 ) de Y varía con X

Donde 𝛽𝛽1 y 𝛽𝛽2 son


La anterior ecuación se
parámetros no conocidos
conoce como función de
pero fijos, también
regresión poblacional
conocidos como
lineal o modelo de
coeficientes de regresión o
regresión poblacional
coeficiente de intersección
lineal
y pendiente
LINEALIDAD

Linealidad en las variables Linealidad en los


• Y=f(X) es lineal si X esta elevado parámetros
a una potencia de 1 solamente y • Si 𝛽𝛽1 aparece elevado a una
no está ni multiplicada ni potencia de 1 solamente y no
dividida por alguna otra variable está multiplicado o dividido por
𝜕𝜕𝑌𝑌
• O si la pendiente o derivada otro parámetro
𝜕𝜕𝑋𝑋
es independiente del valor X • 𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝑋𝑋𝑖𝑖2 ES lineal en
• 𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝑋𝑋𝑖𝑖2 NO es lineal el parámetro
en las variables • 𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽22 𝑋𝑋𝑖𝑖 NO es lineal
en el parámetro
En adelante el término
regresión lineal siempre
significará lineal en los
parámetros. Puede o no
ser lineal en variables
explicativas
ESPECIFICACIÓN ESTOCÁSTICA DE LA FRP

Con el nivel de ingresos de 𝑋𝑋𝑖𝑖 , el


consumo de una familia en Expresamos la desviación de un 𝑌𝑌𝑖𝑖
En el ejemplo del ingreso familiar, particular alrededor de su valor
particular se agrupa alrededor del
existen casos donde a pesar de esperado como:
consumo promedio de todas las
incrementar el ingreso no
familias en ese nivel de 𝑋𝑋𝑖𝑖 , es decir 𝑢𝑢𝑖𝑖 = 𝑌𝑌𝑖𝑖 − 𝐸𝐸(𝑌𝑌|𝑋𝑋𝑖𝑖 ) o
incremento el consumo
alrededor de su esperanza 𝑌𝑌𝑖𝑖 = 𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 + 𝑢𝑢𝑖𝑖
condicional

La ecuación tiene dos partes:


Donde 𝑢𝑢𝑖𝑖 es una variable aleatoria
1) 𝐸𝐸(𝑌𝑌|𝑋𝑋𝑖𝑖 ) la media de consumo de
no observable adopta valores
todas las familias con el mismo nivel
positivos o negativos. También se
de ingreso. Es el componente
conoce como perturbación
sistemático o determinista
estocástica o término de error
estocástico 2)𝑢𝑢𝑖𝑖 es un componente aleatorio, o
no sistemático
ESPECIFICACIÓN ESTOCÁSTICA DE LA FRP
Si suponemos que 𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 es
lineal con 𝑋𝑋𝑖𝑖 podemos Plantea que el consumo de
escribir la anterior ecuación una familia se relaciona
como linealmente con su ingreso
𝑌𝑌𝑖𝑖 = 𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 + 𝜇𝜇𝑖𝑖 más el término de
perturbación
= 𝛽𝛽1 + 𝛽𝛽2 𝑋𝑋𝑖𝑖 + 𝜇𝜇𝑖𝑖

Si tomamos el valor esperado


a ambos lados de la ecuación El supuesto que la línea de
regresión pasa a través de las
𝐸𝐸 𝑌𝑌𝑖𝑖 𝑋𝑋𝑖𝑖 = 𝐸𝐸 𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 +
medias condicionales de Y
𝐸𝐸 𝜇𝜇𝑖𝑖 𝑋𝑋𝑖𝑖
implica que los valores de la
𝐸𝐸 𝑌𝑌𝑖𝑖 𝑋𝑋𝑖𝑖 = 𝐸𝐸 𝑌𝑌 𝑋𝑋𝑖𝑖 + 𝐸𝐸(𝜇𝜇𝑖𝑖 |𝑋𝑋𝑖𝑖 ) media condicional de 𝜇𝜇𝑖𝑖 son
0 = 𝐸𝐸(𝜇𝜇𝑖𝑖 |𝑋𝑋𝑖𝑖 ) cero
IMPORTANCIA DEL TÉRMINO DE ERROR

El término de perturbación es un sustituto de todas las variables que se


omiten en el modelo, pero que, en conjunto, afectan a Y. No se ingresan al
modelo por:
• Vaguedad en la teoría: ignoramos las demás variables que afectan Y
• Falta de disponibilidad de datos: es común que no se disponga de datos que
se quisiera
• Incluir variables como sexo, religión, educación pueden tener poca
influencia, por tanto no sería importante su aporte
• Existe una aleatoriedad intrínseca del comportamiento humano
• Si se usa variables proxi es de esperar que exista algún error
FUNCIÓN DE REGRESIÓN MUESTRAL (FRM)

Hasta el momento consideramos


que conocíamos toda la Con los valores muestrales quizá
Si suponemos que conocemos
población. Ahora lo más común no pueda calcularse la FRP con
una muestra de la tabla de
es que solo se conozca una “precisión” debido a las
ingreso familiar
muestra, es decir, una pequeña fluctuaciones muestrales
proporción de la información

La función de regresión muestral


La líneas se conocen como las (FRM) sirve para representar la
líneas de regresión muestral. línea de regresión muestral
Representan la línea de regresión
poblacional, por fluctuaciones 𝑌𝑌�𝑖𝑖 = 𝛽𝛽̂1 + 𝛽𝛽̂2 𝑋𝑋𝑖𝑖
muestrales son una aproximación 𝑌𝑌�𝑖𝑖 = 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝐸𝐸(𝑌𝑌|𝑋𝑋𝑖𝑖 )
a la verdadera RP
𝛽𝛽̂1 𝑦𝑦 𝛽𝛽̂2 = 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑑𝑑𝑑𝑑 𝛽𝛽1 𝑦𝑦 𝛽𝛽2
FUNCIÓN DE REGRESIÓN MUESTRAL (FRM)

En resumen
La FRM se expresa en queremos estimar la
su forma estocástica: FRP 𝑌𝑌𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝑋𝑋𝑖𝑖 +
𝑌𝑌𝑖𝑖 = 𝛽𝛽̂1 + 𝛽𝛽̂2 𝑋𝑋𝑖𝑖 + 𝜇𝜇̂ 𝑖𝑖 𝑢𝑢𝑖𝑖 con base en la FRM
𝑌𝑌𝑖𝑖 = 𝛽𝛽̂1 + 𝛽𝛽̂2 𝑋𝑋𝑖𝑖 + 𝜇𝜇̂ 𝑖𝑖

En términos FRM 𝑌𝑌�𝑖𝑖 sobrestima la


𝑌𝑌𝑖𝑖 = 𝑌𝑌�𝑖𝑖 + 𝑢𝑢� 𝑖𝑖 verdadera 𝐸𝐸(𝑌𝑌|𝑋𝑋𝑖𝑖 )
REVISIÓN ALGUNOS CONCEPTOS
SUMATORIA Y PRODUCTORA

Algunas propiedades: k es constante 𝑛𝑛 𝑛𝑛


𝑛𝑛
� 𝑎𝑎 + 𝑏𝑏𝑥𝑥𝑖𝑖 = 𝑛𝑛𝑛𝑛 + 𝑏𝑏 � 𝑥𝑥𝑖𝑖
El operador sigma indica la sumatoria � 𝑘𝑘 = 𝑛𝑛𝑛𝑛
𝑖𝑖=1 𝑖𝑖=1
𝑛𝑛 𝑖𝑖=1

� 𝑥𝑥𝑖𝑖 = 𝑥𝑥1 + 𝑥𝑥2 + ⋯ + 𝑥𝑥𝑛𝑛 y


o 𝑛𝑛 𝑛𝑛 𝑛𝑛
𝑖𝑖=1 𝑛𝑛 𝑛𝑛
� 𝑥𝑥𝑖𝑖 + 𝑦𝑦𝑖𝑖 = � 𝑥𝑥𝑖𝑖 + � 𝑦𝑦𝑖𝑖
� 𝑘𝑘𝑥𝑥𝑖𝑖 = 𝑘𝑘 � 𝑥𝑥𝑖𝑖
𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖=1
𝑖𝑖=1 𝑖𝑖=1

𝑛𝑛 2 𝑛𝑛 𝑛𝑛−1 𝑛𝑛
𝑛𝑛 𝑚𝑚 𝑛𝑛
� 𝑥𝑥𝑖𝑖 = � 𝑥𝑥𝑖𝑖2 + 2 � � 𝑥𝑥𝑖𝑖 𝑥𝑥𝑗𝑗 El operador productora indica la
� � 𝑥𝑥𝑖𝑖𝑖𝑖 = � 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖𝑖 + 𝑥𝑥𝑖𝑖𝑖 + ⋯ + 𝑥𝑥𝑖𝑖𝑖𝑖 𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖=1 𝑗𝑗=𝑖𝑖+1
multiplicación
𝑛𝑛
𝑖𝑖=1 𝑗𝑗=1 𝑖𝑖=1
𝑛𝑛
� 𝑥𝑥𝑖𝑖 = 𝑥𝑥1 ∗ 𝑥𝑥2 ∗ ⋯ ∗ 𝑥𝑥𝑛𝑛
= 𝑥𝑥11 + 𝑥𝑥21 + ⋯ + 𝑥𝑥𝑛𝑛𝑛 (𝑥𝑥12 + 𝑥𝑥12 + ⋯ = � 𝑥𝑥𝑖𝑖2 + 2� 𝑥𝑥𝑖𝑖 𝑥𝑥𝑗𝑗 𝑖𝑖=1
+ 𝑥𝑥𝑛𝑛𝑛𝑛 ) + ⋯ + 𝑥𝑥1𝑚𝑚 + 𝑥𝑥2𝑚𝑚 + ⋯ + 𝑥𝑥𝑛𝑛𝑛𝑛 𝑖𝑖=1
𝑖𝑖<𝑗𝑗
REVISIÓN ALGUNOS CONCEPTOS
ESPERANZA MATEMÁTICA
Valor esperado de una variable discreta X,
donde f(x) es la FDP (discreta) de X

𝐸𝐸 𝑋𝑋 = � 𝑥𝑥 𝑓𝑓(𝑥𝑥) Algunas propiedades de valor esperado: a


y b son constantes
𝑥𝑥
𝐸𝐸 𝑏𝑏 = 𝑏𝑏
El valor esperado de una variable continua
+∞
𝐸𝐸 𝑎𝑎𝑎𝑎 + 𝑏𝑏 = 𝑎𝑎 𝐸𝐸 𝑋𝑋 + 𝑏𝑏
𝐸𝐸 𝑋𝑋 = � 𝑥𝑥 𝑓𝑓 𝑥𝑥 𝑑𝑑𝑑𝑑
−∞

Si X e Y son variables aleatorias


independientes
Si X es una variable aleatoria con FDP f(x)
𝐸𝐸 𝑋𝑋𝑋𝑋 = 𝐸𝐸 𝑋𝑋 𝐸𝐸(𝑌𝑌) y si g(x) es cualquier función de X,
Sin embargo fijarse que aunque sean entonces
independientes 𝐸𝐸 𝑔𝑔 𝑋𝑋 = ∑𝑥𝑥 𝑔𝑔 𝑋𝑋 𝑓𝑓(𝑥𝑥) si X es discreta
𝑋𝑋 𝐸𝐸(𝑋𝑋) +∞
= ∫−∞ 𝑔𝑔 𝑋𝑋 𝑓𝑓 𝑥𝑥 𝑑𝑑𝑑𝑑 si X es continua
𝐸𝐸 ≠
𝑌𝑌 𝐸𝐸(𝑌𝑌)
REVISIÓN ALGUNOS CONCEPTOS
VARIANZA
Sea X una variable aleatoria y sea Si X es variable discreta
𝐸𝐸 𝑋𝑋 = 𝑢𝑢. La distribución o dispersión
de los valores de X alrededor de su 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 = � 𝑋𝑋 − 𝑢𝑢 2
𝑓𝑓(𝑥𝑥)
valor esperado se mide por la varianza 𝑥𝑥

𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 = 𝜎𝜎𝑥𝑥2 = � 𝑋𝑋 − 𝑢𝑢 2
Si X es una variable continua
𝑥𝑥 +∞
2
𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 = � 𝑋𝑋 − 𝑢𝑢 𝑓𝑓 𝑥𝑥 𝑑𝑑𝑑𝑑
La raíz cuadrada de 𝜎𝜎𝑥𝑥2 es la desviación −∞
estándar de X

Si a y b son constantes; X e Y son


aleatorias independientes
La varianza también se expresa como
𝑣𝑣𝑣𝑣𝑣𝑣 𝑎𝑎 = 0
𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 = 𝜎𝜎𝑥𝑥2 = 𝑋𝑋 − 𝑢𝑢 2
𝑣𝑣𝑣𝑣𝑣𝑣 𝑎𝑎𝑎𝑎 + 𝑏𝑏 = 𝑎𝑎2 𝑣𝑣𝑣𝑣𝑣𝑣(𝑋𝑋)
= 𝐸𝐸 𝑋𝑋 2 − 𝑢𝑢2
𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑌𝑌 = 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌
= 𝐸𝐸 𝑋𝑋 2 − [𝐸𝐸(𝑋𝑋)]2
𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 − 𝑌𝑌 = 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌
𝑣𝑣𝑣𝑣𝑣𝑣 𝑎𝑎𝑎𝑎 + 𝑏𝑏𝑏𝑏 = 𝑎𝑎2 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑏𝑏 2 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌
REVISIÓN ALGUNOS CONCEPTOS
COVARIANZA
Sean X y Y dos v.a. con medias 𝑢𝑢𝑥𝑥 y 𝑢𝑢𝑦𝑦 , La covarianza se calcula: si son discretas
respectivamente. Entonces la 𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌 = � � 𝑋𝑋 − 𝑢𝑢𝑥𝑥 𝑌𝑌 − 𝑢𝑢𝑦𝑦 𝑓𝑓(𝑥𝑥, 𝑦𝑦)
covarianza entre las dos 𝑦𝑦 𝑥𝑥

𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌 = 𝐸𝐸 𝑋𝑋 − 𝑢𝑢𝑥𝑥 𝑌𝑌 − 𝑢𝑢𝑦𝑦 =∑𝑦𝑦 ∑𝑥𝑥 𝑋𝑋𝑋𝑋𝑋𝑋 𝑥𝑥, 𝑦𝑦 − 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦
= 𝐸𝐸 𝑋𝑋𝑋𝑋 − 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦 Si son continuas
+∞ +∞
La varianza de una variable es la 𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌 = � � 𝑋𝑋 − 𝑢𝑢𝑥𝑥 𝑌𝑌 − 𝑢𝑢𝑦𝑦 𝑓𝑓(𝑥𝑥, 𝑦𝑦) 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑
−∞ −∞
covarianza de dicha variable con ella
+∞ +∞
misma =∫−∞ ∫−∞ 𝑋𝑋𝑋𝑋𝑓𝑓 𝑥𝑥, 𝑦𝑦 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 − 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦

Algunas propiedades: Si X e Y son


independientes
𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌 = 𝐸𝐸 𝑋𝑋𝑋𝑋 − 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦 Si a,b,c y d son constantes
= 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦 − 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦 𝑐𝑐𝑐𝑐𝑐𝑐 𝑎𝑎 + 𝑏𝑏𝑏𝑏, 𝑐𝑐 + 𝑑𝑑𝑑𝑑 = 𝑏𝑏𝑏𝑏 𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋, 𝑌𝑌)
=0
REVISIÓN ALGUNOS CONCEPTOS
COEFICIENTE DE CORRELACIÓN (𝝆𝝆=RHO)
El coeficiente de correlación poblacional: De la fórmula anterior:
𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋, 𝑌𝑌) 𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋, 𝑌𝑌) 𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌 = 𝜌𝜌𝜎𝜎𝑥𝑥 𝜎𝜎𝑦𝑦
𝜌𝜌 = =
{𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 𝑣𝑣𝑣𝑣𝑣𝑣(𝑌𝑌)} 𝜎𝜎𝑥𝑥 𝜎𝜎𝑦𝑦 Sea X e Y dos v.a. (correlacionadas) es decir no
son independientes
𝜌𝜌 es una medida de asociación lineal entre 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑌𝑌 = 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 + 2𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌
dos variables y se sitúa entre -1 y +1. = 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 + 2𝜌𝜌 𝜎𝜎𝑥𝑥 𝜎𝜎𝑦𝑦
Donde -1 indica una perfecta asociación 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 − 𝑌𝑌 = 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 − 2𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌
negativa y +1 una perfecta asociación positiva = 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 + 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 − 2𝜌𝜌 𝜎𝜎𝑥𝑥 𝜎𝜎𝑦𝑦

𝑛𝑛 𝑛𝑛

𝑣𝑣𝑣𝑣𝑣𝑣 � 𝑥𝑥𝑖𝑖 = � 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋𝑖𝑖 + 2 � � 𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋𝑖𝑖 , 𝑋𝑋𝑗𝑗 )


𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖<𝑗𝑗 Por ejemplo:
𝑛𝑛 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋1 + 𝑋𝑋2 + 𝑋𝑋3
= 𝑣𝑣𝑣𝑣𝑣𝑣𝑋𝑋1 + 𝑣𝑣𝑣𝑣𝑣𝑣𝑋𝑋2 + 𝑣𝑣𝑣𝑣𝑣𝑣𝑋𝑋3 + 2𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋1 , 𝑋𝑋2
= � 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋𝑖𝑖 + 2 � � 𝜌𝜌𝑖𝑖𝑖𝑖 𝜎𝜎𝑖𝑖 𝜎𝜎𝑗𝑗
+ 2𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋1 , 𝑋𝑋3 + 2𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋2 , 𝑋𝑋3 )
𝑖𝑖=1 𝑖𝑖<𝑗𝑗
= 𝑣𝑣𝑣𝑣𝑣𝑣𝑋𝑋1 + 𝑣𝑣𝑣𝑣𝑣𝑣𝑋𝑋2 + 𝑣𝑣𝑣𝑣𝑣𝑣𝑋𝑋3 + 2𝜌𝜌12 𝜎𝜎1 𝜎𝜎2
Donde 𝜎𝜎𝑖𝑖 y 𝜎𝜎𝑗𝑗 son las desviaciones estándar + 2𝜌𝜌13 𝜎𝜎1 𝜎𝜎3 + 2𝜌𝜌23 𝜎𝜎2 𝜎𝜎3
de 𝑋𝑋𝑖𝑖 y 𝑋𝑋𝑗𝑗
REVISIÓN ALGUNOS CONCEPTOS
ESPERANZA Y VARIANZA CONDICIONAL

Algunas propiedades:
La varianza condicional de X dada 𝑌𝑌 = 𝑦𝑦 Si f(x) es una función de X entonces
Sea f(x,y) la FDP conjunta de las variables X 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 = 𝐸𝐸{ 𝑋𝑋 − 𝐸𝐸 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 2 |𝑌𝑌 𝐸𝐸 𝑓𝑓 𝑋𝑋 𝑋𝑋 = 𝑓𝑓(𝑋𝑋)
e Y. La esperanza condicional de X, dada 𝑌𝑌 = = 𝑌𝑌} por ejemplo 𝐸𝐸 𝑋𝑋 3 𝑋𝑋 = 𝐸𝐸(𝑋𝑋 3 )
𝑦𝑦
= ∑𝑥𝑥 𝑋𝑋 − 𝐸𝐸 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 2 𝑓𝑓(𝑋𝑋|𝑌𝑌 = 𝑦𝑦) si X es Si f(X) y g(X) son funciones de X, entonces
𝐸𝐸 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 = ∑𝑥𝑥 𝑥𝑥 𝑓𝑓(𝑥𝑥|𝑌𝑌 = 𝑦𝑦) si es discreta discreta
+∞ 𝐸𝐸 𝑓𝑓 𝑋𝑋 𝑌𝑌 + 𝑔𝑔 𝑋𝑋 𝑋𝑋 = 𝑓𝑓 𝑋𝑋 𝐸𝐸 𝑌𝑌 𝑋𝑋 + 𝑔𝑔(𝑋𝑋) por
= ∫−∞ 𝑥𝑥 𝑓𝑓 𝑥𝑥 𝑌𝑌 = 𝑦𝑦 𝑑𝑑𝑑𝑑 si es continua +∞
= ∫−∞ 𝑋𝑋 − 𝐸𝐸 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 2 𝑓𝑓 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 𝑑𝑑𝑑𝑑 si X ejemplo, si c es una constante
es continua 𝐸𝐸 𝑋𝑋𝑋𝑋 + 𝑐𝑐𝑋𝑋 2 𝑋𝑋 = 𝑋𝑋 𝐸𝐸 𝑌𝑌 𝑋𝑋 + 𝑐𝑐𝑋𝑋 2

Si X e Y son independientes 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 𝑋𝑋 =


Si X e Y son independientes 𝐸𝐸 𝑌𝑌 𝑋𝑋 = 𝐸𝐸(𝑌𝑌) 𝑣𝑣𝑣𝑣𝑣𝑣(𝑌𝑌)
Ley esperanzas iteradas: 𝐸𝐸 𝑌𝑌 = 𝐸𝐸𝑋𝑋 [𝐸𝐸(𝑌𝑌|𝑋𝑋)] 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 = 𝐸𝐸 𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 𝑋𝑋 + 𝑣𝑣𝑣𝑣𝑣𝑣[𝐸𝐸(𝑌𝑌|𝑋𝑋)] es decir
la varianza incondicional de Y es igual a la
Si E(Y|X)=0 entonces 𝐸𝐸 0 = 0 esperanza condicional de Y, más la varianza
de la esperanza condicional de Y
REVISIÓN ALGUNOS CONCEPTOS
MOMENTOS SUPERIORES DE DISTRIBUCIONES
DE PROBABILIDAD
En ocasiones requerimos
considerar momentos de orden 𝐸𝐸(𝑋𝑋 − 𝑢𝑢)3
𝑆𝑆 =
superior de las FDP. El tercer y 𝜎𝜎 3
3𝑒𝑒𝑒𝑒 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎𝑎𝑎 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
cuarto momento de una =
𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑. 𝑒𝑒𝑒𝑒𝑒𝑒. 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑎𝑎𝑎𝑎 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
distribución a menudo sirven para
estudiar la forma de una Si S<0 tiene asimetría a la derecha
distribución de probabilidades, en Si S>0 tiene asimetría a la izquierda
particular la simetría 𝑆𝑆 y curtosis Si S=0 simétrica
𝐾𝐾(altura o aplanamiento)

𝐸𝐸(𝑋𝑋 − 𝑢𝑢)4
𝐾𝐾 =
[𝐸𝐸(𝑋𝑋 − 𝑢𝑢)2 ]2
4𝑡𝑡𝑡𝑡 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎𝑎𝑎 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
=
2𝑑𝑑𝑑𝑑 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑎𝑎𝑎𝑎 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
SI k<3 se denomina platicúrtica (colas cortas)
Si k>3 se denomina leptocúrtica (colas largas)
Si k=3 se denomina mesocúrtica (distribución
normal)
REVISIÓN ALGUNOS CONCEPTOS
INFERENCIA ESTADÍSTICA
Estimación puntual: Sea X una v.a. con
FDP 𝑓𝑓(𝑥𝑥; 𝜃𝜃) donde 𝜃𝜃 es el parámetro de
distribución que es desconocido.
Tratamos de estimarlo mediante un
estadístico o estimador 𝜃𝜃� =
𝑓𝑓(𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 ) por ejemplo
1

𝜃𝜃 = 𝑋𝑋1 + 𝑋𝑋2 + ⋯ + 𝑋𝑋𝑛𝑛 = 𝑋𝑋�
𝑛𝑛
Métodos de estimación: Hay tres métodos de
𝑋𝑋� es un estimador del valor verdadero 𝑢𝑢 estimación de los parámetros
1) Mínimos cuadrados (MC)
2) Máxima verosimilitud (MV)
Estimación por intervalos: En vez de obtener solo una estimación puntual 3) Método de momentos (MM)
podemos obtener dos tal que 𝜃𝜃�1 (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 ) y 𝜃𝜃�2 (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 ) y decimos
que existe alguna probabilidad que el intervalo entre 𝜃𝜃�1 y 𝜃𝜃�2 incluya el
verdadero 𝜃𝜃. El concepto clave es la distribución de probabilidades de un
estimador.
Por ejemplo si X es v.a normalmente distribuida entonces 𝑋𝑋� también está
normalmente distribuida con media=𝑢𝑢 (la verdadera) y varianza =𝜎𝜎⁄𝑛𝑛.
Entonces el estimador 𝑋𝑋~𝑁𝑁(𝑢𝑢,� 𝜎𝜎⁄𝑛𝑛).
Si construimos el intervalo 𝑋𝑋� ± 2 𝜎𝜎⁄ 𝑛𝑛 por tanto construimos dos
estimadores tal que Pr 𝜃𝜃�1 < 𝜃𝜃 < 𝜃𝜃�2 = 1 − 𝛼𝛼 donde 0 < 𝛼𝛼 < 1
REVISIÓN ALGUNOS CONCEPTOS
PROPIEDADES DE MUESTRAS PEQUEÑAS

Insesgamiento: Un estimador 𝜃𝜃̂ es Varianza mínima: Se dice que 𝜃𝜃̂1 es un


Si 𝜃𝜃̂1 y 𝜃𝜃̂2 son dos estimadores insesgados
estimador de varianza mínima de 𝜃𝜃. Si la
insesgado de 𝜃𝜃 si 𝐸𝐸 𝜃𝜃̂ = 𝜃𝜃 o 𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃 = 0 de 𝜃𝜃 y la varianza de 𝜃𝜃̂1 es menor o igual
varianza de 𝜃𝜃̂1 es menor o igual que la
caso contrario es sesgado y se calcula que la varianza de 𝜃𝜃̂2 . Entonces 𝜃𝜃̂1 es un
varianza de 𝜃𝜃̂2 que es cualquier otro
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝜃𝜃̂ = 𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃 estimador insesgado o eficiente
estimador de 𝜃𝜃

Linealidad: Se dice que un estimador 𝜃𝜃̂ es Estimador del Error Cuadrático Medio
un estimador lineal de 𝜃𝜃 si es una función Mejor estimador lineal insesgado (MELI): (ECM): El ECM se define 𝐸𝐸𝐸𝐸𝐸𝐸 𝜃𝜃̂ =
lineal de las observaciones muestrales. Si 𝜃𝜃̂ es lineal, insesgado y tiene varianza 𝐸𝐸(𝜃𝜃̂ − 𝜃𝜃)2 . No es lo mismo que la varianza
Por ejemplo la media muestral cumple mínima en la clase de todos los 𝑣𝑣𝑣𝑣𝑣𝑣 𝜃𝜃̂ = 𝐸𝐸[𝜃𝜃̂ − 𝐸𝐸(𝜃𝜃]
̂ 2 . El primero mide la
1 1 estimadores lineales e insesgados de 𝜃𝜃, se dispersión alrededor del verdadero
𝑋𝑋� = � 𝑋𝑋𝑖𝑖 = 𝑋𝑋1 + 𝑋𝑋2 + ⋯ + 𝑋𝑋𝑛𝑛 denomina MELI
𝑛𝑛 𝑛𝑛 parámetro, el segundo la dispersión de la
distribución de 𝜃𝜃̂ alrededor de su media

El ECM se descompone
𝐸𝐸𝐸𝐸𝐸𝐸 𝜃𝜃̂ = 𝐸𝐸(𝜃𝜃̂ − 𝜃𝜃)2
= [𝜃𝜃̂ − 𝐸𝐸 𝜃𝜃̂ + 𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃]2
= 𝐸𝐸[𝜃𝜃̂ − 𝐸𝐸 𝜃𝜃̂ ]2 + 2𝐸𝐸�𝜃𝜃̂
− 𝐸𝐸 𝜃𝜃̂ �[𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃] + 𝐸𝐸[𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃]2
= 𝐸𝐸[𝜃𝜃̂ − 𝐸𝐸 𝜃𝜃̂ ]2 +𝐸𝐸[𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃]2
= 𝑣𝑣𝑣𝑣𝑣𝑣 𝜃𝜃̂ + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝜃𝜃)
̂ 2
REVISIÓN ALGUNOS CONCEPTOS
PROPIEDADES DE MUESTRAS GRANDES

Insesgamiento asintótico: Un estimador 𝜃𝜃�


es asintóticamente insesgado si
Consistencia: Un estimador 𝜃𝜃� es
Puede pasar que un estimador no lim 𝐸𝐸 𝜃𝜃�𝑛𝑛 = 𝜃𝜃. Por ejemplo si X es v.a consistente si se aproxima al verdadero
satisface las propiedades estadísticas en 𝑛𝑛→∞
tomamos el estimador varianza muestral valor 𝜃𝜃 a medida que crece el tamaño de
muestras pequeñas, pero a medida que ∑ 𝑋𝑋𝑖𝑖 −𝑋𝑋� 2
se incrementa la muestra adquiere 𝑆𝑆 2 = y sabemos que la verdadera la muestra. Es decir, la distribución de 𝜃𝜃�
𝑛𝑛
propiedades estadísticas deseables varianza es 𝜎𝜎 2 podemos mostrar tiene cero dispersión o varianza.
(asintóticas) 1 lim 𝑃𝑃 𝜃𝜃� − 𝜃𝜃 < 𝛿𝛿 = 1 donde 𝛿𝛿 > 0
𝐸𝐸 𝑆𝑆 2 = 𝜎𝜎 2 1 − es asintóticamente 𝑛𝑛→∞
𝑛𝑛
insesgado

Eficiencia asintótica: Si 𝜃𝜃� es consistente y Normalidad asintótica: Un estimador 𝜃𝜃�


su varianza asintótica (varianza de la está normalmente distribuido
� es menor asintóticamente si su distribución
distribución asintótica de 𝜃𝜃)
muestral tiende a aproximarse a la
que la varianza asintótica de todos los
distribución normal a medida que el
demás estimadores consistentes de 𝜃𝜃.
tamaño de la muestra n aumenta de
Entonces 𝜃𝜃� se llama asintóticamente manera indefinida (Teorema central del
eficiente. límite)
2.1. Ideas básicas

La tabla 1 contiene datos de una población total de 60 familias, así como su ingreso semanal X y su gasto
de consumo semanal Y Las familias se dividen en diez grupos según su ingreso, de la misma manera el
consumo se divide en grupos.

Tabla 1

Ingreso familiar semanal


En cada rango de ingreso existen diferentes consumos familiares, por tanto, se toma el promedio
(esperanza condicional de Y dado X E(YIX)) para cada ingreso. A estos valores medios se los conoce como
valores esperados condicionales. Para responder a la pregunta ¿cuál es el valor esperado del consumo
semanal de una familia cuyo ingreso mensual es de 80 USD.?

El valor esperado incondicional del consumo responde a la pregunta ¿cuál es el valor esperado del
consumo semanal de una familia? Semanal es:

Figura 1

Ingreso familiar semanal

Los puntos oscuros dentro de los círculos muestran los valores medios condicionales de Y, graficados en
función de diferentes valores de X. La recta se conoce como la línea de regresión poblacional (LRP) o
curva de regresión poblacional (CRP). Se denomina poblacional debido a que en este caso usamos con
toda la población hipotética de 60 familias.

Para cada X, existe una población de valores Y, que se distribuyen alrededor de la media de dichos
valores Y Suponemos por simplicidad que los valores X están distribuidos simétricamente alrededor de
sus respectivos valores medios y la curva pasa por estos valores medios.

2.2. Función de regresión poblacional


La función de esperanza condicional (FEC) o función de regresión poblacional (FRP) o regresión
poblacional (RP) se define por la ecuación:

Donde f(Xi) denota alguna función de la variable explicativa X En el ejemplo anterior, vimos que
la FRP es una función lineal. En otras palabras, es el valor esperado de la distribución Y dada Xi.
Si pensamos en el consumo e ingreso, podemos suponer que la FRP es una función lineal, del
tipo

Donde las betas son parámetros no conocidos pero fijos. Se denominan coeficientes de regresión o
coeficientes de intersección y pendiente, respectivamente.

2.2.1. Linealidad

1. Linealidad en las variables

Cuando la esperanza condicional de Y es una función lineal de Xi geométricamente es una recta. Por

ejemplo, no es una función lineal.

2. Linealidad en los parámetros

Cuando la esperanza condicional de Y es una función lineal de los parámetros (betas), puede ser o no

lineal en la variable X. Por ejemplo, es un modelo lineal (en el parámetro). Por otro

lado, es un modelo de regresión no lineal (en el parámetro).

Entonces, el término regresión lineal siempre significará cuando sea lineal en los parámetros (betas) y
puede ser o no lineal en las variables explicativas X.

Tabla 2

Modelos de regresión lineal


2.2.2. Especificación estocástica de la FRP

A pesar de que las familias tengan un ingreso similar, cada una presenta un diferente consumo, cada
una se agrupa alrededor de la esperanza condicional, entonces expresamos la desviación de Yi alrededor
de su valor esperado como

donde la variable Vi es no observable y adopta valores positivos o negativos. Se le conoce como


perturbación estocástica o término de error estocástico.

Entonces, E(X) es un componente sistemático o determinista, mientras que Vi es un componente


aleatorio o no sistemático. Este representa a todas las variables omitidas o ignoradas que pueden
afectar Y que no se incluyen en el modelo de regresión.

Por tanto, podemos escribir la ecuación como

Si tomamos el valor esperado (operador esperanza) en ambos lados

2.3. Función de regresión muestral (FRM)

Hasta el momento, suponíamos que teníamos la información poblacional. En la práctica, es más


probable que siempre tengamos valores muestrales, entonces ahora necesitamos estimar la FRP con
información muestral.

Si ahora en vez de tener la tabla poblacional con información de los ingresos y consumos familiares,
tenemos únicamente dos muestras aleatorias:

Tabla 3
Primera muestra aleatoria (izquierda) de la tabla de población entre consumo e ingreso y segunda
muestra aleatoria (derecha)

Figura 2

Gráfica de líneas de regresión muestra/ de las dos muestras aleatorias de la tabla de población entre
ingresos y consumos familiares

Las líneas de la gráfica son las líneas de regresión muestral, es decir, son una aproximación a la
verdadera línea de regresión poblacional. Entonces, la función de regresión muestral (FRM) se puede
escribir como:
Donde el sombrero o gorra señalan que son valores estimados. El estimador o estadístico muestral es un
método para estimar el parámetro poblacional a partir de información muestral. La FRM también se
puede expresar como:

De igual manera, es el término residual (muestral). Si comparamos la FRM y la FRP obtenemos el


siguiente gráfico.

Figura 3

Líneas de regresión muestra/ y poblacional

En términos de la FRM, la Yi observada se expresa como:

También podría gustarte