Unido Eval 1
Unido Eval 1
#logicas (YES/NO)
is.logical(a) #consulto si la variable a es logica, no lo es es numerica por eso dice FALSE
is.numeric(a) # ahora si es TRUE (verdad)
is.na(f) # consulto si en la variable f hay NA es decir sin valores, me dice FALSE en todos significa que todos tienen valores
g<- h==f # al poner == significa que estoy comparando sila variable h es igual a f, me responde por cada uno y me dice que es
falso que no es uno igual al otro
i<- h==2*f #pregunto si h es dos veces f y me responde que es verdadero en cada caso
#caracteres
j<- c("andres", "juan", "viviana", "julia") #son caracteres (letras) por tanto se deben poner en comillas, caso contrario cree
que son numericas y obtienes un error
str(j) # la funcion me permite ver que tipo de variable es, en este caso chr significa caracter
k<-j*2 # no puedes hacer operaciones numericas porque son caracteres
l<- c("rodriguez", "montalvo","romero", "cruz") # ingreso otra variable con caracteres
m<- rbind(j,l) #junte las dos variables por fila, la primera fila es por nombre y la segunda es de apellidos
n<- cbind(j,l) #junto las dos variables por columna, la primera columna es de nombres y la segunda de apellidos
#matrices
o<- matrix(NA, nrow = 3, ncol = 2) #cree una matriz sin valores de 3 filas y 2 columnas
o[,1]<- c(5,6,7) #llene la primera columna con valores
o[,2]<- c(8,9,10) #llene la segunda columna con valores
colnames(o)<- c("edad","talla") #les di nombre a las columnas
row.names(o)<- c("12 meses", "24 meses","36 meses") # le di nombre a las filas
o #ahora tiene una matriz con mejor presentacion y con valores
p<-c(2,4) #creo una variable con 2 valores
q<-rbind(o,p) #uno por fila la matriz o con la variable p, me da como resultado una matriz
row.names(q)[4]<- c("48 meses") #cambio el nombre de la fila 4
q #ahora tengo una matriz de 4x2
#listas y dataframes
r<- list(f,j,q) #una lista puede contener muchas variables, en este caso numerica, caracter y matriz
r[1] #accedo a el primer objeto de la lista
s<- data.frame(columna1=c(5,10,15),columna2=c("d","e","f")) #un data frame puede contener valore numericos y
caracteres. Fijate que ahora antes de ingresar la informacion ya le di un nombre a la columna
s[1,] #accedo a la primera fila del data frame
#factores
t<- c("quito","guayaquil","cuenca", "quito", "machala", "ibarra", "guayaquil","otavalo","quito")
u<-as.factor(t) # convierte los caracteres en factores. Encuentra los caracteres similares y les da un valor numerico, estos los
denomina como levels
summary(u) # si hacemos un resumen de la variable me dice cuantas veces se repite cada uno
Econometría
Econometría Econometría
teórica aplicada
Interpretación moderna
• El análisis de regresión trata del estudio de la dependencia de una variable (variable dependiente)
respecto de una o más variables (variables explicativas) con el objetivo de estimar o predecir la
media o valor promedio poblacional de la primera en términos de los valores conocidos o fijos (en
muestras repetidas) de las segundas.
EJEMPLOS DONDE SE USA REGRESIONES
• ¿Cómo cambia la estatura promedio de los hijos dada la estatura de los padres?
• Un monopolista que puede fijar el precio o la producción (pero no ambos
factores) tal vez desee conocer la demanda de un producto con diversos precios.
Tal experimento permite estimar la elasticidad del precio (es decir, la respuesta
a variaciones del precio) de la demanda del producto y permite determinar el
precio que maximiza las ganancias
• Un economista laboral quizá desee estudiar la tasa de cambio de los salarios
monetarios o nominales en relación con la tasa de desempleo. La curva de esta fi
gura es un ejemplo de la célebre curva de Phillips, que relaciona los cambios en
los salarios nominales con la tasa de desempleo
• El director de marketing de una compañía tal vez quiera conocer la relación entre
la demanda del producto de su compañía con el gasto de publicidad, por
ejemplo. Un estudio de este tipo es de gran ayuda para encontrar la elasticidad
de la demanda respecto de los gastos publicitarios, es decir, el cambio
porcentual de la demanda en respuesta a un cambio de 1 por ciento, por ejemplo,
en el presupuesto de publicidad
REGRESIÓN VS CORRELACIÓN
Correlación:
Causalidad: Señala
Correspondencia o
que existe una Ejemplo: Tocar fuego
relación reciproca
relación entre una quema
entre dos o más
causa y un efecto
variables
Ejemplo: En la última
década la cantidad de
personas calvas se PUEDE EXISTIR
CORRELACIÓN NO
incremento. De igual CORRELACIÓN POR
IMPLICA CUSALIDAD
manera lo hizo el CASUALIDAD
shampoo para cabello
REGRESIÓN VS CORRELACIÓN
Análisis de correlación
• El objetivo principal es medir el grado de asociación lineal entre dos variables
• El coeficiente de correlación mide esta fuerza de asociación
• Por ejemplo: fumar y cáncer de pulmón
Análisis de regresión
• Trata de estimar o predecir el valor promedio de una variable con base en los
valores fijos de otras
• Por ejemplo: Predecir el promedio de calificaciones de un examen de un examen
de microeconomía aplicada en base a las calificaciones de microeconomía básica.
Diferencia
• En el análisis de regresión hay una asimetría en el tratamiento a las variables
dependientes y explicativas. Supone que la variable explicativa es aleatoria con
una distribución de probabilidad. Mientras la explicativa tiene valores fijos.
• En la correlación son dos variables cualesquiera en forma simétrica, no hay
distinción entre variable dependiente y explicativa.
TERMINOLOGÍA Y NOTACIÓN
TIPOS DE DATOS: SERIES DE TIEMPO
TIPOS DE DATOS: DATOS DE PANEL
DOCUMENTOS
La econometría, resultado de cierta perspectiva sobre el papel que desempeña la economía, consiste en
la aplicación de la estadística matemática a los datos económicos para dar soporte empírico a los
modelos construidos por la economía matemática y obtener resultados numéricos.
Esta ciencia busca evidenciar, mediante datos empíricos, las relaciones que tienen las variables
económicas y entender su relación con los fenómenos económicos.
En economía, se realizan muchos supuestos teóricos. La destreza del econometrista radica en convertir
estos en ecuaciones matemáticas para la verificación empírica de la teoría económica.
Keynes señala que la propensión marginal a consumir (PMC) es la tasa de variación del consumo dividido
para la tasa de variación del ingreso. Puede ser mayor que cero y menor que uno.
Entonces, la pendiente mide la PMC. Esta ecuación plantea una relación lineal entre el consumo y el
ingreso, conocida en economía como la función consumo.
Si un modelo tiene más de una ecuación, se lo conoce como multiecuacional, caso contrario
uniecuacional. En la ecuación descrita, del lado izquierdo está la variable dependiente (consumo) y del
lado derecho están las variables independientes o explicativas (ingreso).
4. Obtención de datos
-299,5913 + 0,7218Xt
El sombrero sobre Y indica que es un valor estimado. Se puede interpretar el resultado como que el
promedio del gasto de consumo aumentó alrededor de 72 centavos por cada dólar de incremento en el
ingreso real.
6. Pruebas de hipótesis
En el supuesto de que tenga una aproximación buena a la realidad, se deben establecer criterios si los
valores estimados concuerdan con las expectativas de la teoría. Keynes señala que la PMC está entre
cero y uno; en nuestro caso, confirmamos la teoría, ya que obtuvimos 0,72.
Antes de aceptar la teoría es necesario asegurarnos de que no fue debido al azar el resultado. Es
indispensable comprobar si es estadísticamente menor que I, para ello se usa inferencia estadística
(pruebas de hipótesis).
7. Pronóstico o predicción
Si el modelo fue correcto y no refutó la teoría, entonces podemos realizar predicciones de la variable
dependiente o explicativa. Si queremos predecir el gasto en consumo para 2006, cuando el PIB de 2006
fue 11.319,4 millones, entonces:
El valor real fue el de 8044 millones. El modelo, por lo tanto, subpredijo, se podría decir que el error de
predicción fue de aproximadamente 174 000 millones, alrededor de 1 ,5 % del valor real.
Si queremos obtener el multiplicador del ingreso, que mide el cambio en el ingreso generado por un
cambio de un dólar en gasto en inversión
Si el gobierno considera que mantener un gasto de 8750 miles de millones de dólares mantendrá la tasa
de desempleo en su nivel actual de cerca de 4,2 %, ¿qué nivel de ingreso será necesario para mantener
el consumo fijo como meta?
La econometría se divide en teoría y aplicación. Dentro de cada una de estas se puede realizar
econometría clásica (frecuentista) o bayesiana.
En este curso, solo trataremos la econometría clásica. Realizaremos varios ejemplos aplicados a la
práctica usando el software R, Stata y E-views.
1.1.3. Requisitos matemáticos y estadísticos
La metodología clásica implica seguir los lineamientos de una investigación empírica; consideramos la
teoría keynesiana de consumo
La regresión
Deseamos averiguar cómo cambia la distribución de estaturas de los hijos versus los padres.
Una recta de regresión nos muestra que el promedio de la estatura de los hijos aumenta conforme crece
la de los padres.
Figura 1
Si bien la regresión tiene que ver con la dependencia de una variable respecto a otras, no significa
causalidad. Una relación estadística por sí misma no puede (por lógica) implicar causalidad. Para ello se
debe acudir a consideraciones a priori o teóricas.
La correlación tiene como objetivo medir el grado de asociación lineal (fuerza) entre dos variables. La
correlación y la regresión son distintas. En la regresión, hay una simetría en el tratamiento de variables
dependientes y explicativas; mientras
Terminología y notación
La variable dependiente puede tomar varios nombres: variable explicada, predicha, regresada,
respuesta, endógena, resultado, variable controlada. Por su parte, la variable explicativa puede tomar
los siguientes nombres: variable independiente, predictora, regresora, estímulo, exógena, covariante,
variable de control.
Cuando existe una variable dependiente y solo una o dos variables explicativas, se conoce como un
análisis de regresión simple. Si son más de dos, se conoce como análisis de regresión múltiple.
Series de tiempo
Series transversales
Información combinada
Por convención, la notación kit señala que el subíndice i es para datos transversales y t para series de
tiempo.
ECONOMETRÍA BÁSICA
Docente: Danny Moreno B.
ANÁLISIS DE REGRESIÓN CON DOS
VARIABLES
El análisis de regresión se
La regresión bivariante o con relaciona en gran medida con la
El análisis de regresión múltiple,
dos variables, es donde la estimación o predicción de la
en donde la regresada se
variable dependiente media (de la población) o valor
relaciona con más de una
(regresada) se relaciona con una promedio de la variable
regresora, es una extensión
sola variable explicativa dependiente con base en los
lógica del caso de dos variables
(regresora) valores conocidos o fijo de la
variable explicativa
En resumen
La FRM se expresa en queremos estimar la
su forma estocástica: FRP 𝑌𝑌𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝑋𝑋𝑖𝑖 +
𝑌𝑌𝑖𝑖 = 𝛽𝛽̂1 + 𝛽𝛽̂2 𝑋𝑋𝑖𝑖 + 𝜇𝜇̂ 𝑖𝑖 𝑢𝑢𝑖𝑖 con base en la FRM
𝑌𝑌𝑖𝑖 = 𝛽𝛽̂1 + 𝛽𝛽̂2 𝑋𝑋𝑖𝑖 + 𝜇𝜇̂ 𝑖𝑖
𝑛𝑛 2 𝑛𝑛 𝑛𝑛−1 𝑛𝑛
𝑛𝑛 𝑚𝑚 𝑛𝑛
� 𝑥𝑥𝑖𝑖 = � 𝑥𝑥𝑖𝑖2 + 2 � � 𝑥𝑥𝑖𝑖 𝑥𝑥𝑗𝑗 El operador productora indica la
� � 𝑥𝑥𝑖𝑖𝑖𝑖 = � 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖𝑖 + 𝑥𝑥𝑖𝑖𝑖 + ⋯ + 𝑥𝑥𝑖𝑖𝑖𝑖 𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖=1 𝑗𝑗=𝑖𝑖+1
multiplicación
𝑛𝑛
𝑖𝑖=1 𝑗𝑗=1 𝑖𝑖=1
𝑛𝑛
� 𝑥𝑥𝑖𝑖 = 𝑥𝑥1 ∗ 𝑥𝑥2 ∗ ⋯ ∗ 𝑥𝑥𝑛𝑛
= 𝑥𝑥11 + 𝑥𝑥21 + ⋯ + 𝑥𝑥𝑛𝑛𝑛 (𝑥𝑥12 + 𝑥𝑥12 + ⋯ = � 𝑥𝑥𝑖𝑖2 + 2� 𝑥𝑥𝑖𝑖 𝑥𝑥𝑗𝑗 𝑖𝑖=1
+ 𝑥𝑥𝑛𝑛𝑛𝑛 ) + ⋯ + 𝑥𝑥1𝑚𝑚 + 𝑥𝑥2𝑚𝑚 + ⋯ + 𝑥𝑥𝑛𝑛𝑛𝑛 𝑖𝑖=1
𝑖𝑖<𝑗𝑗
REVISIÓN ALGUNOS CONCEPTOS
ESPERANZA MATEMÁTICA
Valor esperado de una variable discreta X,
donde f(x) es la FDP (discreta) de X
𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 = 𝜎𝜎𝑥𝑥2 = � 𝑋𝑋 − 𝑢𝑢 2
Si X es una variable continua
𝑥𝑥 +∞
2
𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 = � 𝑋𝑋 − 𝑢𝑢 𝑓𝑓 𝑥𝑥 𝑑𝑑𝑑𝑑
La raíz cuadrada de 𝜎𝜎𝑥𝑥2 es la desviación −∞
estándar de X
𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌 = 𝐸𝐸 𝑋𝑋 − 𝑢𝑢𝑥𝑥 𝑌𝑌 − 𝑢𝑢𝑦𝑦 =∑𝑦𝑦 ∑𝑥𝑥 𝑋𝑋𝑋𝑋𝑋𝑋 𝑥𝑥, 𝑦𝑦 − 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦
= 𝐸𝐸 𝑋𝑋𝑋𝑋 − 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦 Si son continuas
+∞ +∞
La varianza de una variable es la 𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋, 𝑌𝑌 = � � 𝑋𝑋 − 𝑢𝑢𝑥𝑥 𝑌𝑌 − 𝑢𝑢𝑦𝑦 𝑓𝑓(𝑥𝑥, 𝑦𝑦) 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑
−∞ −∞
covarianza de dicha variable con ella
+∞ +∞
misma =∫−∞ ∫−∞ 𝑋𝑋𝑋𝑋𝑓𝑓 𝑥𝑥, 𝑦𝑦 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 − 𝑢𝑢𝑥𝑥 𝑢𝑢𝑦𝑦
𝑛𝑛 𝑛𝑛
Algunas propiedades:
La varianza condicional de X dada 𝑌𝑌 = 𝑦𝑦 Si f(x) es una función de X entonces
Sea f(x,y) la FDP conjunta de las variables X 𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 = 𝐸𝐸{ 𝑋𝑋 − 𝐸𝐸 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 2 |𝑌𝑌 𝐸𝐸 𝑓𝑓 𝑋𝑋 𝑋𝑋 = 𝑓𝑓(𝑋𝑋)
e Y. La esperanza condicional de X, dada 𝑌𝑌 = = 𝑌𝑌} por ejemplo 𝐸𝐸 𝑋𝑋 3 𝑋𝑋 = 𝐸𝐸(𝑋𝑋 3 )
𝑦𝑦
= ∑𝑥𝑥 𝑋𝑋 − 𝐸𝐸 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 2 𝑓𝑓(𝑋𝑋|𝑌𝑌 = 𝑦𝑦) si X es Si f(X) y g(X) son funciones de X, entonces
𝐸𝐸 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 = ∑𝑥𝑥 𝑥𝑥 𝑓𝑓(𝑥𝑥|𝑌𝑌 = 𝑦𝑦) si es discreta discreta
+∞ 𝐸𝐸 𝑓𝑓 𝑋𝑋 𝑌𝑌 + 𝑔𝑔 𝑋𝑋 𝑋𝑋 = 𝑓𝑓 𝑋𝑋 𝐸𝐸 𝑌𝑌 𝑋𝑋 + 𝑔𝑔(𝑋𝑋) por
= ∫−∞ 𝑥𝑥 𝑓𝑓 𝑥𝑥 𝑌𝑌 = 𝑦𝑦 𝑑𝑑𝑑𝑑 si es continua +∞
= ∫−∞ 𝑋𝑋 − 𝐸𝐸 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 2 𝑓𝑓 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 𝑑𝑑𝑑𝑑 si X ejemplo, si c es una constante
es continua 𝐸𝐸 𝑋𝑋𝑋𝑋 + 𝑐𝑐𝑋𝑋 2 𝑋𝑋 = 𝑋𝑋 𝐸𝐸 𝑌𝑌 𝑋𝑋 + 𝑐𝑐𝑋𝑋 2
𝐸𝐸(𝑋𝑋 − 𝑢𝑢)4
𝐾𝐾 =
[𝐸𝐸(𝑋𝑋 − 𝑢𝑢)2 ]2
4𝑡𝑡𝑡𝑡 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎𝑎𝑎 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
=
2𝑑𝑑𝑑𝑑 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑎𝑎𝑎𝑎 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
SI k<3 se denomina platicúrtica (colas cortas)
Si k>3 se denomina leptocúrtica (colas largas)
Si k=3 se denomina mesocúrtica (distribución
normal)
REVISIÓN ALGUNOS CONCEPTOS
INFERENCIA ESTADÍSTICA
Estimación puntual: Sea X una v.a. con
FDP 𝑓𝑓(𝑥𝑥; 𝜃𝜃) donde 𝜃𝜃 es el parámetro de
distribución que es desconocido.
Tratamos de estimarlo mediante un
estadístico o estimador 𝜃𝜃� =
𝑓𝑓(𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 ) por ejemplo
1
�
𝜃𝜃 = 𝑋𝑋1 + 𝑋𝑋2 + ⋯ + 𝑋𝑋𝑛𝑛 = 𝑋𝑋�
𝑛𝑛
Métodos de estimación: Hay tres métodos de
𝑋𝑋� es un estimador del valor verdadero 𝑢𝑢 estimación de los parámetros
1) Mínimos cuadrados (MC)
2) Máxima verosimilitud (MV)
Estimación por intervalos: En vez de obtener solo una estimación puntual 3) Método de momentos (MM)
podemos obtener dos tal que 𝜃𝜃�1 (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 ) y 𝜃𝜃�2 (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 ) y decimos
que existe alguna probabilidad que el intervalo entre 𝜃𝜃�1 y 𝜃𝜃�2 incluya el
verdadero 𝜃𝜃. El concepto clave es la distribución de probabilidades de un
estimador.
Por ejemplo si X es v.a normalmente distribuida entonces 𝑋𝑋� también está
normalmente distribuida con media=𝑢𝑢 (la verdadera) y varianza =𝜎𝜎⁄𝑛𝑛.
Entonces el estimador 𝑋𝑋~𝑁𝑁(𝑢𝑢,� 𝜎𝜎⁄𝑛𝑛).
Si construimos el intervalo 𝑋𝑋� ± 2 𝜎𝜎⁄ 𝑛𝑛 por tanto construimos dos
estimadores tal que Pr 𝜃𝜃�1 < 𝜃𝜃 < 𝜃𝜃�2 = 1 − 𝛼𝛼 donde 0 < 𝛼𝛼 < 1
REVISIÓN ALGUNOS CONCEPTOS
PROPIEDADES DE MUESTRAS PEQUEÑAS
Linealidad: Se dice que un estimador 𝜃𝜃̂ es Estimador del Error Cuadrático Medio
un estimador lineal de 𝜃𝜃 si es una función Mejor estimador lineal insesgado (MELI): (ECM): El ECM se define 𝐸𝐸𝐸𝐸𝐸𝐸 𝜃𝜃̂ =
lineal de las observaciones muestrales. Si 𝜃𝜃̂ es lineal, insesgado y tiene varianza 𝐸𝐸(𝜃𝜃̂ − 𝜃𝜃)2 . No es lo mismo que la varianza
Por ejemplo la media muestral cumple mínima en la clase de todos los 𝑣𝑣𝑣𝑣𝑣𝑣 𝜃𝜃̂ = 𝐸𝐸[𝜃𝜃̂ − 𝐸𝐸(𝜃𝜃]
̂ 2 . El primero mide la
1 1 estimadores lineales e insesgados de 𝜃𝜃, se dispersión alrededor del verdadero
𝑋𝑋� = � 𝑋𝑋𝑖𝑖 = 𝑋𝑋1 + 𝑋𝑋2 + ⋯ + 𝑋𝑋𝑛𝑛 denomina MELI
𝑛𝑛 𝑛𝑛 parámetro, el segundo la dispersión de la
distribución de 𝜃𝜃̂ alrededor de su media
El ECM se descompone
𝐸𝐸𝐸𝐸𝐸𝐸 𝜃𝜃̂ = 𝐸𝐸(𝜃𝜃̂ − 𝜃𝜃)2
= [𝜃𝜃̂ − 𝐸𝐸 𝜃𝜃̂ + 𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃]2
= 𝐸𝐸[𝜃𝜃̂ − 𝐸𝐸 𝜃𝜃̂ ]2 + 2𝐸𝐸�𝜃𝜃̂
− 𝐸𝐸 𝜃𝜃̂ �[𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃] + 𝐸𝐸[𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃]2
= 𝐸𝐸[𝜃𝜃̂ − 𝐸𝐸 𝜃𝜃̂ ]2 +𝐸𝐸[𝐸𝐸 𝜃𝜃̂ − 𝜃𝜃]2
= 𝑣𝑣𝑣𝑣𝑣𝑣 𝜃𝜃̂ + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝜃𝜃)
̂ 2
REVISIÓN ALGUNOS CONCEPTOS
PROPIEDADES DE MUESTRAS GRANDES
La tabla 1 contiene datos de una población total de 60 familias, así como su ingreso semanal X y su gasto
de consumo semanal Y Las familias se dividen en diez grupos según su ingreso, de la misma manera el
consumo se divide en grupos.
Tabla 1
El valor esperado incondicional del consumo responde a la pregunta ¿cuál es el valor esperado del
consumo semanal de una familia? Semanal es:
Figura 1
Los puntos oscuros dentro de los círculos muestran los valores medios condicionales de Y, graficados en
función de diferentes valores de X. La recta se conoce como la línea de regresión poblacional (LRP) o
curva de regresión poblacional (CRP). Se denomina poblacional debido a que en este caso usamos con
toda la población hipotética de 60 familias.
Para cada X, existe una población de valores Y, que se distribuyen alrededor de la media de dichos
valores Y Suponemos por simplicidad que los valores X están distribuidos simétricamente alrededor de
sus respectivos valores medios y la curva pasa por estos valores medios.
Donde f(Xi) denota alguna función de la variable explicativa X En el ejemplo anterior, vimos que
la FRP es una función lineal. En otras palabras, es el valor esperado de la distribución Y dada Xi.
Si pensamos en el consumo e ingreso, podemos suponer que la FRP es una función lineal, del
tipo
Donde las betas son parámetros no conocidos pero fijos. Se denominan coeficientes de regresión o
coeficientes de intersección y pendiente, respectivamente.
2.2.1. Linealidad
Cuando la esperanza condicional de Y es una función lineal de Xi geométricamente es una recta. Por
Cuando la esperanza condicional de Y es una función lineal de los parámetros (betas), puede ser o no
lineal en la variable X. Por ejemplo, es un modelo lineal (en el parámetro). Por otro
Entonces, el término regresión lineal siempre significará cuando sea lineal en los parámetros (betas) y
puede ser o no lineal en las variables explicativas X.
Tabla 2
A pesar de que las familias tengan un ingreso similar, cada una presenta un diferente consumo, cada
una se agrupa alrededor de la esperanza condicional, entonces expresamos la desviación de Yi alrededor
de su valor esperado como
Si ahora en vez de tener la tabla poblacional con información de los ingresos y consumos familiares,
tenemos únicamente dos muestras aleatorias:
Tabla 3
Primera muestra aleatoria (izquierda) de la tabla de población entre consumo e ingreso y segunda
muestra aleatoria (derecha)
Figura 2
Gráfica de líneas de regresión muestra/ de las dos muestras aleatorias de la tabla de población entre
ingresos y consumos familiares
Las líneas de la gráfica son las líneas de regresión muestral, es decir, son una aproximación a la
verdadera línea de regresión poblacional. Entonces, la función de regresión muestral (FRM) se puede
escribir como:
Donde el sombrero o gorra señalan que son valores estimados. El estimador o estadístico muestral es un
método para estimar el parámetro poblacional a partir de información muestral. La FRM también se
puede expresar como:
Figura 3