Estadistica Aplicada (Multivariable)
Estadistica Aplicada (Multivariable)
ESTADISTICA APLICADA
Y ECONOMETRIA
Sara Arancibia C
2012
1
Objetivos
Comprender y aplicar los conceptos bsicos de Econometra y
metodologas de Anlisis Multivariante, fundamentales para el
anlisis de informacin.
Conocer y manejar el software estadstico SPSS, con nfasis en
la resolucin de estudios de casos aplicados a la gestin y
polticas pblicas.
Metodologa
Bibliografa:
3
Contenidos
Primera sesin
Introduccin a la Econometra
Introduccin al Anlisis Multivariable
Anlisis de varianza
Anlisis no paramtrico de H de Kruskall-Wallis
Gua 1-Estudios de casos
4
Contenidos
Sexta Sesin
Modelos de regresin mltiple con variables cualitativas ( dami)
Estimacin ponderada
Gua 4- Estudios de casos
Sptima Sesin
Regresin logstica
Gua 5- Estudios de casos
Octava Sesin
Anlisis Factorial
Gua 6- Estudios de casos
5
Introduccin
Introduccin a la Econometra
Introduccin al Anlisis Multivariante
6
Introduccin a la Econometra
Naturaleza de la Econometra
y de los datos econmicos
Qu es la Econometra?
Funciones de la Econometra
La metodologa de la Econometra
La regresin es una herramienta fundamental de la
Econometra.
Estructura de los datos econmicos
Relaciones estadsticas vs. Relaciones determinsticas
Regresin vs. Causalidad
Regresin vs. Correlacin
Terminologa
7
Introduccin
Naturaleza de la econometra y de los datos econmicos
Qu es la La econometra se basa en mtodos
econometra? estadsticos para estimar las relaciones
econmicas, poner a prueba teoras
econmicas y evaluar y poner en prctica
Literalmente, polticas gubernamentales y comerciales.
econometra significa
medicin econmica.
Aplicaciones de la econometra
Pronstico de variables macroeconmicas ( inflacin, el producto
interno bruto)
Estudios aplicados a diversos campos de la economa (Ej: estudio de
los efectos de los gastos de las campaas polticas en los resultados
de las votaciones, en el efecto de los gastos en educacin en el
rendimiento de los estudiantes, etc) 8
Cules son las funciones de la econometra?
10
Ejemplo
Consideremos a continuacin la teora keynesiana de la
funcin consumo
11
Especificacin del modelo economtrico
en donde
Y gastos de consumo
X ingreso
0 int er sec cin con el eje Y
1 pendiente
12
La ecuacin (1), que afirma que el consumo est relacionado
linealmente con el ingreso, es un ejemplo de un modelo
matemtico.
Si el modelo, como del ejemplo anterior, consta de una sola
ecuacin, recibe el nombre de modelo uniecuacional; si tiene
ms de una ecuacin, se denomina modelo multiecuacional o
modelo de ecuaciones simultneas.
El modelo matemtico de la funcin de consumo (1) es de
limitado inters para el econometrista, por cuanto supone una
relacin exacta o determinstica entre el consumo y el ingreso.
Sin embargo, las relaciones existentes entre las variables
econmicas son generalmente inexactas
13
Para tener en cuenta la existencia de una relacin
inexacta entre las variables econmicas, el
econometrista debe modificar la funcin de consumo
determinstica de (1), de la siguiente manera
Y o 1 X u (2)
14
Estimacin
Habiendo especificado el modelo economtrico, la tarea
siguiente del econometrista consiste en obtener
estimaciones (valores numricos) de los parmetros del
modelo, a partir de la informacin disponible, generalmente
proporcionada por el estadstico econmico. Estas
estimaciones le confieren un contenido emprico a la teora
econmica. As por ejemplo, si en el estudio de la funcin
de consumo anteriormente expuesta, se encuentra que 1
0,8, este valor no slo proporciona una estimacin
numrica de la PMC sino que corrobora la hiptesis
keynesiana segn la cual la PMC es menor que 1.
Cmo se estiman los parmetros?
La tcnica utilizada para obtener dichas estimaciones es el
anlisis de regresin
15
Verificacin ( inferencia estadstica)
Habiendo obtenido ya estimaciones de los parmetros, la tarea
siguiente consiste en desarrollar criterios apropiados dirigidos
a establecer si las estimaciones obtenidas estn de acuerdo
con lo que se espera de la teora que se est verificando.
La refutacin o confirmacin de las teoras econmicas,
basndose en la evidencia emprica, se fundamenta en la
inferencia estadstica ( prueba de hiptesis)
Predicciones o pronsticos
Si el modelo escogido confirma la hiptesis o teora que se
est investigando, se puede entonces proceder a predecir
el (los) valor(es) futuro(s) de la variable dependiente Y con
base en valores futuros, conocidos o esperados, para la(s)
variable(s) explicativa(s) X.
16
Utilizacin de los modelos para fines de control o
formulacin de polticas
18
Estructura de los datos econmicos
1 3.10 11 2 1 0
2 3.24 12 22 1 1
3 3.00 11 2 0 0
4 6.00 8 44 0 1
5 5.30 12 7 0 1
. . . . . .
. . . . . .
. . . . . .
525 11.56 16 5 0 1
526 3.50 14 5 1 0
20
Tabla 1.2
Conjunto de datos sobre las tasas de crecimiento
econmico y caractersticas de los pases
.. . . .
.. . . .
61 Zimbabwe 2.30 17 6
21
Datos de series de tiempo
22
Tabla 1.3
Salario mnimo, desempleo y datos relacionados
para Puerto Rico
. . . . . .
. . . . . .
. . . . . .
23
Combinacin de cortes transversales
25
Datos de panel o longitudinales
. . . . . . .
. . . . . . .
. . . . . . .
27
Nota: Los conjuntos de datos que incluyen la
dimensin del tiempo, como los de series
temporales y de panel, exigen un tratamiento
especial por la correlacin con el paso del
tiempo de la mayor parte de las series de tiempo
econmicas. Otros temas, como las tendencias
y la estacionalidad, surgen en el anlisis de los
datos de series temporales, pero no en los de
corte transversal.
28
Relaciones estadsticas vs. Relaciones determinsticas
30
Regresin vs Causalidad
32
Regresin vs Correlacin
33
Terminologa
Yi 1 2 X 2i 3 X 3i .... n X ni i
Regresada Regresora
34
Introduccin al Anlisis Multivariante
Conceptos y tcnicas del Anlisis Multivariable
Qu es el Anlisis Multivariable?
Utilidad del Anlisis Multivariable
Los datos en el Anlisis Multivariable
Variables y escalas de medida
Anlisis inicial de datos
Las tcnicas de Anlisis Multivariable
Tcnicas de anlisis de la dependencia
Tcnicas de anlisis de la interdependencia
35
Qu es el Anlisis Multivariable?
Anlisis
Datos Multivariable
38
Los datos en el Anlisis Multivariable
Escalas de medida
Nominal
Escalas no mtricas o cualitativas
Ordinal
39
Los datos en el Anlisis Multivariable
Escalas de medida
Una variable no mtrica puede ser convertida en variable
ficticias binarias (dummy). Sera necesario contar con un
nmero de ellas igual al nmero de categoras de la variable no
mtrica menos uno.
Ejemplo:
Supngase que se pretende
transformar la variable medios de Categora F1 F2
transporte ms comunes de tres
categoras: 1=autobs, 2=tren y
3=avin. Autobs 1 0
La conversin podra efectuarse por
medio de dos variables ficticias, F1 y Tren 0 1
F2. Los valores que stas tomaran
para representar cada categora seran
Avin 0 0
los siguientes:
40
Los datos en el Anlisis Multivariable
Anlisis inicial de datos
Antes de comenzar con el anlisis multivariable, es esencial
realizar un examen exhaustivo de los datos.
La deteccin de problemas ocultos en las matrices de datos
supondr un gran avance en la consecucin de resultados
lgicos y consistentes.
Es fundamental inspeccionar:
Analizar si es relevante para el
anlisis obtener los datos
Anlisis de datos ausentes perdidos.
(missing values) Determinar si la informacin que
falta puede ser completada.
Sustituir los datos por valores
estimados
41
Los datos en el Anlisis Multivariable
Anlisis inicial de datos
Es fundamental inspeccionar:
42
Los datos en el Anlisis Multivariable
Anlisis inicial de datos
Es fundamental inspeccionar:
43
Las tcnicas del Anlisis Multivariable
De anlisis de la dependencia
De anlisis de la interdependencia
Otras tcnicas
44
Las tcnicas del Anlisis Multivariable
Tcnicas aplicables cuando una o varias
De anlisis de la variables dependientes van a ser explica-
dependencia das por un conjunto de variables indepen-
dientes que actan como predictoras
47
ANOVA (o anlisis de la varianza)
48
Anlisis discriminante
Modelo probit
Modelo de eleccin discreta en el que la funcin de
distribucin de probabilidad de b, variable perturbacin
es la funcin normal.
50
Anlisis conjunto
Tcnica que se emplea para entender cmo conforman
los individuos sus preferencias hacia los objetos,
normalmente marcas o productos.
Segmentacin jerrquica
Tcnica de anlisis de la dependencia que tiene por
objeto distinguir grupos de elementos homogneos en
una poblacin a travs de un proceso iterativo
descendente de particin de la muestra total en
sucesivos grupos en virtud del valor adoptado por la
variable dependiente, el cual es funcin de los valores
presentados por las variables independientes.
51
Anlisis con clases latentes
Tcnica que busca distinguir en una muestra grupos de
elementos homogneos en funcin de los valores que
adopta una variable latente no mtrica. Tales valores
son las categoras de esa variable, las cuales reciben el
nombre de clases latentes.
52
Tcnicas de anlisis de la interdependencia
53
Tcnicas de anlisis de la interdependencia.
54
Anlisis factorial
Tcnica de anlisis de la interdependencia presentada por un cierto
nmero de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores pueden ser
comunes (captan la variabilidad compartida por todas las variables), o
especficos (captan la variabilidad propia de cada variable, sin relacin
con las dems).
55
Anlisis de correspondencias
Tcnica basada en el estudio de la asociacin entre las
categoras de mltiples variables no mtricas, que
persigue la elaboracin de un mapa perceptual que ponga
de manifiesto dicha asociacin en modo grfico.
56
Escalamiento multidimensional
Tcnica cuyo fin es elaborar una representacin grfica
que permita conocer la imagen que los individuos se
crean de un conjunto de objetos por posicionamiento de
cada uno en relacin a los dems.
57
Otras tcnicas
58
La eleccin de una tcnica concreta
59
TECNICAS DE ANLISIS DE LA DEPENDENCIA
VARIABLE INDEPENDIENTE
Mtrica No mtrica
60
TCNICAS DE ANLISIS DE LA INTERDEPENCIA
VARIABLES
Mtricas No mtrica
OTRAS TCNICAS
61
Tcnicas a estudiar
De anlisis de la dependencia
Anlisis de varianza de En SPSS
un factor men Analizar/Comparar Medias
De anlisis de la interdependencia
Anlisis Factorial En SPSS
men Analizar/Reduccin de datos
62
Anlisis de Varianza de un factor
63
Anlisis de Varianza
Anlisis de varianza de un factor
El anlisis ANOVA de un factor es una generalizacin de la prueba
T para dos muestras independientes al caso de diseos con ms
de dos muestras.
Sirve para comparar varios grupos en una variable cuantitativa.
Variable categrica
Variable cuantitativa en la que
(Nominal u ordinal)
se desea comparar los grupos
que define los grupos
64
Anlisis de varianza de un factor
Datos. Los valores de la variable de factor deben ser
enteros y la variable dependiente debe ser cuantitativa
(nivel de medida de intervalo).
65
Anlisis de varianza de un factor
La hiptesis que se pone a prueba en el ANOVA de un
factor es que las medias poblacionales ( las medias de la
VD en cada nivel de la VI) son iguales.
H 0 : 1 2 3 ... n
Si las medias poblacionales son iguales, eso significa que
los grupos no difieren en la VD y que, en consecuencia, la
VI o factor es independiente de la VD.
Si las medias poblacionales son iguales, las medias muestrales de los diferentes
grupos sern parecidas, existiendo entre ellas tan slo diferencias atribuibles al
2
azar. En ese caso, la estimacin ( basada en las diferencias entre las
1 2
medias muestrales) reflejar el mismo grado de variacin que la estimacin
2
basada en las diferencias entre las puntuaciones individuales dentro de
cada grupo) y el cuociente F tomar un valor prximo a 1
67
Anlisis de varianza de un factor
2
Por el contrario, si las medias muestrales son distintas, la estimacin
2 1
reflejar mayor grado de variacin que la estimacin , en cuyo
2
caso el cuociente F tomar un valor mayor que 1. Cuanto ms
diferentes sean las medias muestrales, mayor ser el valor de F.
Salario actual
Des viacin
N Media tpica Mnimo Mximo
Adminis trativo 363 $27,838.54 $7,567.995 $15,750 $80,000
Seguridad 27 $30,938.89 $2,114.616 $24,300 $35,250
Directivo 84 $63,977.80 $18,244.776 $34,410 $135,000
Total 474 $34,419.57 $17,075.661 $15,750 $135,000
69
Anlisis de varianza de un factor
ANOVA
Salario actual
Suma de
cuadrados gl Media cuadrtica F Sig.
Inter-grupos 89438483925,9 2 44719241962,971 434,481 ,000
Intra-grupos 48478011510,4 471 102925714,459
Total 137916495436 473
Salario actual
Suma de
cuadrados gl Media cuadrtica F Sig.
Inter-grupos 89438483925,9 2 44719241962,971 434,481 ,000
Intra-grupos 48478011510,4 471 102925714,459
Total 137916495436 473
Salario actual
Estads tico
de Levene gl1 gl2 Sig.
59,733 2 471 ,000
73
Pruebas robustas de igualdad de las medias
Salario actual
a
Estads tico gl1 gl2 Sig.
Welch 162,200 2 117,312 ,000
Brown-Forsythe 306,810 2 93,906 ,000
a. Dis tribuidos en F asintticamente.
74
Comparaciones post-hoc
75
No asumiendo varianzas iguales
79
Anlisis de regresin lineal simple
80
Anlisis de regresin lineal simple
81
Anlisis de regresin lineal simple
82
Algunas ideas bsicas
Tabla 1
Gastos de consumo familiar semanal Y,$. Ingreso familiar semanal X,$
Y\X 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
88 113 125 140 160 185
115 162 191
Total 325 462 445 707 678 750 685 1043 777 1211
Medias 65 77 89 101 113 125 137 149 155 173
E(Y)=7272/60=121,2
Es incondicional en el sentido de que para obtener esta cifra
se omiten los niveles de ingresos de las diversas familias
84
Algunas ideas bsicas
Cul es el valor esperado del gasto de consumo semanal
de una familia?
85
Algunas ideas bsicas
Se puede observar en l grfico de dispersin, al unir las
medias condicionales la recta de regresin poblacional (RRP).
( o regresin de Y sobre X).
El adjetivo poblacional se debe al hecho de que en este
ejemplo se consider una poblacin de 60 familias.
Grfico de dispersin
Gasto de consumo v/s Ingreso
200
180
A pesar de la
160
variabilidad del
gasto para cada
140
ingreso, en
120
promedio el
100
consumo semanal
80
se incrementa en
60 la misma medida
40
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280
que el ingreso
Ingreso semanal
86
Curva de regresin poblacional
Desde el punto de vista geomtrico, una curva de
regresin poblacional es simplemente el lugar geomtrico
de las medias condicionales de la variable dependiente para los
valores fijos de la (s) variables explicativa(s).
87
Concepto de funcin de regresin poblacional (FRP)
Es claro que cada media condicional E(Y/Xi) es funcin de Xi,
donde Xi es un valor dado de X.
E(Y/Xi)=f(Xi) (1)
y f(Xi) denota alguna funcin de la variable explicativa X.
Ecuacin de
E (Y / X i ) 1 2 X i regresin (2)
poblacional FRP
89
Significado del trmino lineal
Linealidad en las variables
Se dice que una funcin Y=f(X) es lineal en X si X aparece
elevado a una potencia o ndice de 1 solamente y dicha variable
no est multiplicada ni dividida por alguna otra variable
ui Yi E (Y / X i ) o Yi E (Y / X i ) ui (3)
Yi E (Y / X i ) ui (4)
Yi E (Y / X i ) ui 1 2 X i ui (5)
Y1 55 1 2 80 u2
Y2 60 1 2 80 u2
Y3 65 1 2 80 u3
Y4 70 1 2 80 u4
Y5 75 1 2 80 u5
93
Especificacin estocstica de la FRP
Ahora, si se toma el valor esperado de (5), obtenemos
Yi E (Y / X i ) ui (5)
E (Yi / X i ) E E (Y / X i ) E (ui / X i )
E (Y/X i ) E (ui / X i )
Puesto que E (Yi / X i ) es lo mismo que E (Y / X i )
La especificacin estocstica
Yi E (Y / X i ) ui 1 2 X i ui (7)
95
Funcin de regresin muestral (FRM)
En la prctica lo que se tiene al alcance no es ms que una
muestra de valores de Y que corresponden a algunos valores fijos
de X. Por consiguiente la labor ahora es estimar la FRP con base
en informacin muestral.
Supngase que no se conoca la poblacin de la tabla 1 y que la
nica informacin que se tena era una muestra de valores de Y
seleccionada aleatoriamente para valores dados de X tal como se
presenta en la tabla 2 Y X
70 80
De la muestra de la tabla 2, 65 100
90 120
se puede predecir el gasto de 95 140
consumo semanal promedio Y para 110 160
la poblacin correspondiente a los 115 180
120 200
valores de X seleccionados? 140 220
155 240
Se puede estimar la forma FRP a 150 260
partir de la informacin muestral? Tabla 2 Primera muestra 96
Funcin de regresin muestral (FRM)
Consideremos otra muestra tomada de la poblacin de la tabla 1.
Las rectas de la figura se conocen como rectas de regresin
muestral. En general, se podran obtener N FRM diferentes para N
muestras diferentes y estas FRM no necesariamente son iguales
Y X
55 80
88 100
90 120
80 140
118 160
120 180
145 200
135 220
145 240
175 260
97
Ahora, en forma anloga a la FRP en la cual se basa la recta de
regresin poblacional, se puede desarrollar el concepto de funcin
de regresin muestral.
La contraparte muestral de (1) puede escribirse como
Yi 1 2 X i
Donde Es la contraparte de
Yi estimador de E(Y/X) E (Y / X i ) 1 2 X i
1 estimador de 1
2 estimador de 2
Un estimador, conocido tambin como estadstico (muestral) es
simplemente una regla, o mtodo que dice cmo estimar el
parmetro poblacional a partir de la informacin suministrada por la
muestra disponible. Un valor numrico particular obtenido por el
estimador en una aplicacin es conocido como estimado.
98
Funcin de regresin muestral (FRM)
en su forma estocstica
La FRM en su forma estocstica se puede
expresar como
Yi 1 2 X i i (8)
Donde i denota el trmino residual (muestral)
Conceptualmente es anlogo a ui y puede ser considerado
como un estimado de ui
99
Rectas de regresin muestral y poblacional
Yi E (Y / X i ) i
101
Funcin de regresin simple:
problema de estimacin
La tarea consiste en estimar la funcin de regresin
poblacional (FRP) con base en la funcin de regresin
muestral (FRM) en la forma ms precisa posible.
Los dos mtodos de estimacin que suelen utilizarse
son:
1) Los mnimos cuadrados ordinarios (MCO)
2) La mxima verosimilitud (MV).
Primero se estima ui Yi 1 2 X i (9)
105
Mtodo de mnimos cuadrados ordinarios (MCO)
2 2
2
i i i 1 2 i
u Y Y i Y X (10)
106
Mtodo de mnimos cuadrados ordinarios (MCO)
Y n X
i 1 2 i Ecuaciones
normales
Y X X X
i i 1 i 2 i
2
2
xy i i
1 Y - 2 X
Estimadores
x 2
i
de mnimos
cuadrados
107
Modelo clsico de regresin lineal:
supuestos detrs del mtodo MCO
E (Y / X i ) 1 2 X i
109
Supuesto 4: Homocedasticidad o igual varianza de ui.
Dado el valor de X, la varianza de ui es la misma para todas
las observaciones, es decir, las varianzas condicionales de ui
son idnticas.
var( ui / Xi) 2
Homocedasticidad Heterocedasticidad
110
Supuesto 5: No existe auto correlacin entre las
perturbaciones.
Dados dos valores cualquiera de X, Xi y Xj , la correlacin entre
dos ui y uj es cero.
cov( ui, uj / Xi, X j ) 0
111
Supuesto 6: La covarianza entre ui y Xi es cero o E(uiXi)=0
cov( ui, X i ) 0
var( X )
X i X
2
n 1
112
Supuesto 9: El modelo de regresin est correctamente
especificado.
Suma de residuos
2
u 2
i
al cuadrado (SRC)
(12)
n2 Nmero de
grados de libertad
Donde 2 es el estimador de MCO de la verdadera 2
.
El trmino nmero de grados de libertad significa el nmero
total de observaciones n menos el nmero de restricciones
puestas en ellas.
115
Error estndar de la regresin
u 2
i (13)
n2
116
Propiedades de los estimadores de mnimos
cuadrados: Teorema de Gauss-Markov
118
Teorema de Gauss-Markov
119
Coeficiente de determinacin r2
Una medida de la bondad del ajuste
120
Coeficiente de determinacin r2
(14)
puesto que yi ui 0 y y i 2 xi
121
Coeficiente de determinacin r2
Las diversas sumas de cuadrados que aparecen en la expresin
anterior pueden describirse de la manera siguiente
Y Y
2
y 2
i i (STC)
u
2 la variacin residual o no explicada
i (SRC) de los valores de Y alrededor de la
recta de regresin, o simplemente
la suma de residuos al cuadrado
As, (14) es
(SRC).
STC = SEC + SRC
123
Coeficiente de determinacin r2
2
2
Ahora, se define r como Y i Y
r2 SEC
Yi Y STC
2
124
Coeficiente de determinacin r2
O en forma alterna
2
r 1
2 u i
1
SRC Coeficiente de
(15) determinacin
Y
2
i Y STC
125
Coeficiente de correlacin muestral
r
xy
x y
n xi yi
n x x n y y
i i i i
x y
2
i
2
i
i
2
i
2
i
2
i
2
(16)
126
Propiedades de r
Puede tener signo positivo o negativo, dependiendo del signo del
trmino en el numerador de (16), el cual mide la covariacin muestral
de dos variables.
Cae entre los lmites de -1 y 1
Es simtrico por naturaleza; es decir, el coeficiente de correlacin
entre X y Y (rxy) es el mismo que entre Y y X (ryx).
Es independiente del origen y de la escala
Si X y Y son estadsticamente independientes, el coeficiente de
correlacin entre ellos es cero; pero si r = O, esto no significa que las
dos variables sean independientes. En otras palabras, una
correlacin igual a cero no necesariamente implica independencia.
Es una medida de asociacin lineal o dependencia lineal
solamente; su uso en la descripcin de relaciones no lineales no
tiene significado. 127
Coeficiente de correlacin muestral
128
Interpretacin de la pendiente:
129
Ejemplo; Gasto de consumo familiar e ingreso familiar
130
Ejemplo; Gasto de consumo familiar e ingreso familiar
Resultados en SPSS
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error tp. Beta t Sig.
1 (Cons tante) 24,455 6,414 3,813 ,005
X ,509 ,036 ,981 14,243 ,000
a. Variable dependiente: Y
131
Ejemplo; Gasto de consumo familiar e ingreso familiar
Interpretacin:
El valor de 1 0,5091 que mide la pendiente de la lnea, muestra que
dentro del rango de la muestra de X comprendido entre $80 y $260
semanales, a medida que X aumenta, digamos en $1, el aumento
estimado en el promedio de gastos de consumo semanales es de
aproximadamente 51 centavos. El valor de 24,45 , el cual
1
133
Ejemplo: Salario y educacin
134
Ejemplo: Salario y educacin
Debemos interpretar con cuidado la ecuacin. La intercepcin -
0.90 significa literalmente que una persona sin instruccin
recibe un salario pronosticado de -90 centavos de dlar por
hora, lo que, desde luego, es una tontera. Resulta que ningn
miembro de la muestra tiene menos de ocho aos de
educacin, lo que explica el pronstico descabellado de una
escolaridad de 0 aos.
Para una persona con ocho aos de escolaridad, el salario
pronosticado es
137
El supuesto de normalidad: El modelo clsico de
regresin lineal normal
138
El supuesto de normalidad: El modelo clsico de
regresin lineal normal
Media : E(ui ) 0
Eui E (ui ) E (ui2 ) 2
2
Varianza :
Cov(ui , u j ) :
E ui E (ui ) u j E (u j ) E (ui u j ) 0 i j
ui ~ N(0, 2 )
139
El supuesto de normalidad
141
Estimacin de intervalos
142
Estimacin de intervalos
Ahora, en estadstica, la confiabilidad de un estimador puntual se
mide por su error estndar. Por consiguiente, en lugar de depender
de un solo estimador puntual, se puede construir un intervalo
alrededor del estimador puntual, por ejemplo, dentro de dos o tres
errores estndar a cada lado del estimador puntual, tal que este
intervalo tenga, digamos, 95% de probabilidad de incluir el verdadero
valor del parmetro. sta es, a grandes rasgos, la idea bsica de la
estimacin de intervalos.
Para ser ms especfico, supngase que se desea encontrar qu tan"
cerca" est por ejemplo, 2 de 2
143
Estimacin de intervalos
Simblicamente
Pr 2 - 2 2 1
Tal intervalo, si existe, se conoce como intervalo de confianza;
a 1 - se le denomina coeficiente de confianza; y (0 < < 1)
se conoce como el nivel de significancia.
Los puntos extremos del intervalo de confianza se conocen como
lmites de confianza (tambin denominados valores crticos),
siendo 2 - el lmite de confianza inferior y 2
el lmite de confianza superior.
Obsrvese que en la prctica y 1 - son expresados
frecuentemente en forma porcentual como 100 y 100(1 - )%.
144
Intervalos de confianza para los
coeficientes de regresin 1 y 2
145
Intervalos de confianza para los
coeficientes de regresin 1 y 2
0,4268 2 0,5914
146
Intervalos de confianza para los
coeficientes de regresin 1 y 2
148
Prueba de hiptesis. Prueba t
Consideremos nuevamente el ejemplo de
consumo -ingreso. Sabemos que
1 0,5091 se( 1 ) 0,0357
0,5091 0,3
t 5,86
0,0357
Si 5%, , , gl 8 entonces t0, 025 2.306
luego el t calculado es mayor al t de tabla y por lo tanto se rechaza la hiptesis nula
n
xi
Al reemplazar 2 desconocida por su estimador insesgado se
cumple que la variable
Y 0 1 2 X 0
t
ee(Y 0 )
sigue una distribucin t con n - 2 g de l. La distribucin t
puede ser utilizada por consiguiente para construir intervalos
de confianza para el verdadero E(Yo I Xo) y para hacer
pruebas de hiptesis acerca de tal valor de la manera usual,
a saber,
1 2 X 0 - t / 2 ee(Y 0 )
152
Aplicacin problema de prediccin
Para los datos del ejemplo (tabla 3.3 anexo 1)
1 100 1702
var(Y0 ) 42.159 10.4759
10 33000
y ee(Y0 ) 3.2366
(18)
n
xi
Puede demostrarse adems que Y0 tambin sigue una distribucin
normal con media
y varianza dadas por (17) y (18), respectivamente.
Sustituyendo 2 desconocida por 2 se cumple que
Y0 Y0
t tambin sigue una distribucin t
ee(Y0 Y0 )
154
Prediccin individual
Por consiguiente, la distribucin t puede utilizarse para hacer
inferencia sobre la verdadera Yo. Al continuar con nuestro ejemplo
consumo-ingreso, se ve que la prediccin puntual de Yo es
75.3645, igual a Y y su varianza es 52.6349. Por consiguiente, el
0
intervalo de confianza al 95% para Yo correspondiente a Xo =100
es
(58.6345 Y0 / X 0 100) 92.0945)
155
Intervalos de confianza para Y media y
para valores individuales de Y
156
Formas funcionales de los modelos de regresin
157
Cmo medir la elasticidad: Modelo Log-Lineal
ln Yi ln 1 2 ln X i i
Si escribimos como
ln Yi 2 ln X i i
Donde ln 1 este modelo es lineal en los parmetros y 2
y lineal en los logaritmos de las variables Y y X y puede ser
estimado por regresin MCO
158
Cmo medir la elasticidad: Modelo Log-Lineal
159
Modelo de elasticidad constante
Si la relacin entre la cantidad demandada y el precio es como
se muestra en la figura (a ) la transformacin doble-Iog
presentada en la figura ( b) dar entonces la estimacin de la
elasticidad-precio (-2 )
lnY
ln de cantidad demandada
Y
Yi 1 X i 2 e i
ln Y ln 1 2 ln X i
Cantidad demandada
lnX
Precio X Ln del Precio
160
Ejemplo
Gasto en bienes duraderos respecto al gasto de
consumo personal total
162
Ejemplo: Salario y ventas
Podemos estimar un modelo de elasticidad constante que relacione
el salario del director ejecutivo con las ventas de la empresa. Sea
vtas las ventas anuales de la compaa, medidas en millones de
dlares. Un modelo de elasticidad constante es
ln sala 0 1 ln vtas u
en el que es la elasticidad de sala en relacin con vtas. Este
modelo se encuentra entre los de regresin simple, al definir la
variable dependiente como y = log(sala) y la independiente como
x = log(vtas). La estimacin de esta ecuacin mediante MCO da
ln sala 4.822 0.257 ln vtas
n 209, R 2 0.211.
El coeficiente de ln(vtas) es la elasticidad estimada de sala con
respecto a vtas. Implica que un incremento de uno por ciento en
las ventas de la compaa aumenta el salario del director ejecutivo
en alrededor de 0.257 por ciento, que es la interpretacin usual de
elasticidad. 163
Cmo medir la tasa de crecimiento: Modelo Log-Lin
Yi Y0 (1 r) t (1)
Donde r es la tasa de inters compuesta de Y
164
Cmo medir la tasa de crecimiento: Modelo Log-Lin
Tomando el logaritmo natural, podemos escribir
ln Yi ln Y0 t ln(1 r) (2)
Ahora sea 1 lnY 0 2 ln(1 r)
Modelos como ln Yi 1 2 t i
se denominan modelos semilog porque solamente una variable (en
este caso la regresada) aparece en forma logartmica.
Para fines descriptivos, un modelo en el cual la variable regresada
es logartmica se denominar modelo log-lin.
cambio relativo en Y
2
cambio absoluto en X
166
Cmo medir la tasa de crecimiento: Modelo Log-Lin
167
Cmo medir la tasa de crecimiento: Modelo Log-Lin
168
Cmo medir la tasa de crecimiento: Modelo Log-Lin
La interpretacin de la ecuacin es
que durante un periodo de un
trimestre, el gasto en servicios se
increment a una tasa (trimestral)
de 0.743%. Aproximadamente esto
es igual a un crecimiento anual de
2.97%. Puesto que
7.7890 = ln(GES) al comienzo del
periodo de anlisis, si se toma su
antilogaritmo se tiene 2.41390
(billones de dlares), como el valor
inicial de GES (es decir, el valor al
final del ltimo trimestre de 1992).
169
Cmo medir la tasa de crecimiento: Modelo Log-Lin
Ejemplo: Salario y educacin
Recuerde el ejemplo del salario y la educacin, en el que hicimos la
regresin del salario por hora sobre los aos de escolaridad.
Obtuvimos una estimacin de la pendiente de 0.54, que significa
que pronosticamos que cada ao adicional de instruccin aumenta
. promedio el salario por hora en 54 centavos de dlar.
en
A causa del carcter lineal de
sala 0.90 0.54 educ.
171
El modelo Lin-Log
A diferencia del modelo de crecimiento recin
estudiado, en el cual se estaba interesado en
encontrar el crecimiento porcentual en Y, ante un
cambio unitario absoluto en X, ahora hay inters en
encontrar el cambio absoluto en Y debido a un
cambio porcentual en X. Un modelo que puede lograr
este propsito puede escribirse como
Yi 1 2lnX i i
Para fines descriptivos, llamamos a este modelo un
modelo lin-Iog.
172
El modelo Lin-Log
Interpretacin de la pendiente
cambio en Y cambio en Y
2
cambio en ln X cambio relativo en X
Simblicamente, se tiene Y
2
X / X
En forma equivalente Y 2 X / X
176
Anlisis de regresin mltiple
Yi 1 2 X 2i 3X3i i
179
Modelo de tres variables
Supuestos
Especficamente. se supone lo siguiente
Valor medio de ui, igual a cero
E (ui / X 2i , X 3i ) 0 para cada i
No correlacin serial
cov( ui , u j ) 0 i j
Homocedasticidad
var( ui ) 2
180
Supuestos
Covarianza entre ui y cada variable X igual a cero
cov( ui , X 2i ) cov( ui , X 3i ) 0
E (Yi / X 2i , X 3i ) 1 2 X 2i 3X3i
Expresado en palabras, de la expresin anterior se obtiene la media
condicional o el valor esperado de Y condicionado a los valores dados o
fijos de las variables X2 y X3. Por consiguiente, igual que en el caso de
dos variables, el anlisis de regresin mltiple es el anlisis de regresin
condicional, sobre los valores fijos de las variables explicativas, y lo que
obtenemos es el valor promedio o la media de Y, o la respuesta media de
Y a valores dados de las regresoras X.
Nota: Las propiedades de los estimadores MCO del modelo de
regresin mltiples son similares a aquellas del modelo con dos
variables 182
Significado de los coeficientes de regresin parcial
183
El coeficiente de determinacin mltiple R2
R 1
2 SRC
1
u 2
i
STC y i
2
185
Ejemplo: Mortalidad Infantil respecto al PIB
per cpita y a la tasa de alfabetizacin en las mujeres
MI i 1 2 PIBPCi 3TAM i ui
186
Ejemplo: Mortalidad Infantil respecto al PIB
per cpita y a la tasa de alfabetizacin en las mujeres
187
Interpretacin
El coeficiente de regresin parcial -0,0056 del PIBPC indica que
si la influencia de la TAM se mantiene constante, conforme el
PIBPC se incrementa, digamos en un dlar, en promedio, la
mortalidad infantil disminuye en 0.0056 unidades. Para hacerlo
interpretable desde el punto de vista econmico, si el PIB per
cpita se incrementara mil dlares, en promedio, el nmero de
muertes de nios menores de 5 aos se reducira a 5.6 por cada
1000 nacimientos vivos.
El coeficiente -2.2316 seala que si la influencia del PIBPC se
mantiene constante, el nmero de muertes de nios menores de 5
aos disminuira, en promedio, 2.23 por cada mil nacimientos
vivos, en tanto que la tasa de alfabetizacin en las mujeres subira
un punto porcentual. El valor de la interseccin de casi 263, si se
interpretara de una forma mecanicista, significara que si los
valores del PIBPC y de la TAM fuesen cero, la mortalidad infantil
promedio sera de aproximadamente 263 muertes por cada mil
nacimientos vivos. 188
El valor de la interseccin de casi 263, si se interpretara de una
forma mecanicista, significara que si los valores del PIBPC y de la
TAM fuesen cero, la mortalidad infantil promedio sera de
aproximadamente 263 muertes por cada mil nacimientos vivos.
Por supuesto, tal interpretacin debera tomarse con mucho
cuidado.
El valor de R2 de casi 0.71 significa que casi 71 % de la variacin
en la mortalidad infantil se explica mediante el PIBPC y la TAM, lo
cual es un gran porcentaje si se considera que el valor mximo
que puede tener R2 es 1l. De todo lo dicho hasta aqu, los
resultados de la regresin tienen sentido.
189
Anlisis de regresin mltiple: el problema de la
inferencia
El supuesto de normalidad
Como ya se sabe, si el nico objetivo es la estimacin puntual de
los parmetros de los modelos de regresin, ser suficiente el
mtodo de mnimos cuadrados ordinarios (MCO), el cual no hace
supuestos sobre la distribucin de probabilidad de las
perturbaciones u. Pero si el objetivo no slo es la estimacin sino
adems la inferencia, entonces, como se analiz para el modelo de
regresin simple, se debe suponer que las u siguen alguna
distribucin de probabilidad.
Se supuso que las u seguan la distribucin normal con media cero
y varianza constante. Se mantiene el mismo supuesto para los
modelos de regresin mltiple. Con el supuesto de normalidad , se
halla que los estimadores MCO de los coeficientes de regresin
parcial, son los mejores estimadores lineales insesgados (MELI)..
190
El supuesto de normalidad
Consideremos nuevamente el ejemplo de la regresin de la
mortalidad infantil (MI) sobre el PIB per cpita (PIBP) y la tasa
de analfabetismo en las mujeres (TAM) para una muestra de
64 pases. Los resultados de la regresin se reproducen a
continuacin.
192
Prueba de hiptesis sobre coeficientes
individuales de regresin parcial
0.0056
t 2.8187
0.0020
193
Prueba de hiptesis sobre coeficientes
individuales de regresin parcial
Puesto que el valor t calculado de 2.8187 (en trminos absolutos)
excede el valor crtico t de 2, se puede rechazar la hiptesis nula de
que el PIBP no tiene ningn efecto sobre la mortalidad infantil. Para
expresarlo en trminos ms positivos, si se mantiene la tasa de
analfabetismo para las mujeres constante, el PIB per cpita tiene un
efecto significativo (negativo) sobre la mortalidad infantil, como se
podra esperar a priori. De forma grfica, la situacin es la que se
muestra en la figura anterior.
H 0 : 2 3 0
196
Prueba de la significacin global de la regresin
197
Modelos de regresin con variables
dicotmicas
En el anlisis de regresin, la variable dependiente o regresada,
est influida frecuentemente no slo por variables de razn de
escala (por ejemplo: ingreso, produccin, precios, costos,
estatura y temperatura), sino tambin por variables que son
esencialmente cualitativas por naturaleza, o de escala nominal
(por ejemplo, sexo, raza, color, religin, nacionalidad, regin
geogrfica, trastornos polticos y afiliacin a un partido).
200
Modelos de regresin con variables
dicotmicas
Yi 1 2 D2i 3 D3i X i ui
201
Modelos de regresin con variables
dicotmicas
202
Modelos de regresin con variables
dicotmicas
En muchas aplicaciones, dicha suposicin puede ser
insostenible. Una mujer no blanca ni hispana tal vez gane menor
salario que un hombre de esa misma categora. En otras
palabras, quiz haya una interaccin entre las dos variables
cualitativas D2 y D3. Por tanto, su efecto sobre la media quiz
no sea simplemente aditivo, sino multiplicativo, como en el
siguiente modelo:
Yi 1 2 D2i 3 D3i 4 D2i D3i X i ui
de donde
E (Yi / D2i 1, D3i 1, X i ) 1 2 3 4 X i
Que es la funcin salario medio por hora para las trabajadoras
no blancas ni hispanas.
203
Modelos de regresin con variables
dicotmicas
Obsrvese que
2 = efecto diferencial de ser mujer
3 = efecto diferencial de ser no blanco ni hispano
4 = efecto diferencial de ser mujer no blanca ni hispana
lo cual muestra que el salario medio por hora de las mujeres no
blancas ni hispanas es diferente (en una cantidad igual a 4 ) del
salario medio por hora de las mujeres blancas o hispanas. Si por
ejemplo los tres coeficientes de las variables dictomas son
negativos, implicara que las trabajadoras no blancas ni hispanas
ganan un salario medio por hora mucho ms bajo que las
trabajadoras blancas o hispanas, si se compara con la categora
base, la cual en el ejemplo presente es la de hombres blancos o
hispanos.
204
Modelos de regresin con variables
dicotmicas
Ejemplo:
Ingresos promedio por hora en comparacin con la escolaridad,
sexo y raza
Los resultados de la regresin basados en el modelo
Yi 1 2 D2i 3 D3i X i ui
donde Y = salario por hora en dlares
X = educacin (aos de escolaridad)
D2 = 1 si es mujer; 0 en otro caso
D3 = 1 si no es blanco y no hispano; 0 en otro caso
son
Y i 0.2610 2.3606 D2i 1.7327 D3i 0.8028 X i
t (0.2357)** (-5.4873)* (-2.1803)* (9.9094)*
R 2 0.2032 n 528
205
Modelos de regresin con variables
dicotmicas
206
Modelos de regresin con variables
dicotmicas
-1,964=-2,3605-1,732+2,128
208
Problemas en el anlisis de regresin
Multicolinealidad:
Se refiere al caso en el cual dos o ms variables
explicatorias en el modelo de regresin estn altamente
correlacionadas, haciendo difcil o imposible aislar sus
efectos individuales sobre la variable dependiente. Con
multicolinealidad, los coeficientes de MCO estimados
pueden ser estadsticamente insignificantes (y an tener el
signo contrario) aunque R cuadrado puede ser alto. La
multicolinealidad puede ser superada a veces o reducirse
coleccionando ms datos, usando informacin a priori,
transformando la relacin funcional, o reduciendo una de las
variables altamente colineales.
209
Heteroscedasticidad
210
Autocorrelacin:
Cuando el trmino de error en un perodo est correlacionado
positivamente con el trmino de error en el perodo anterior,
enfrentamos el problema de autocorrelacin (de primer orden
positiva). Esto es comn en anlisis de series de tiempo.
La presencia de autocorrelacin de primer orden se prueba
utilizando la tabla del estadstico de Durbin- Watson a los
niveles de significacin del 5% o 1% para n observaciones y k,
variables explicatorias
211
Estimacin ponderada ( MCP- WLS)
212
Estimacin ponderada ( MCP- WLS)
Si las diferencias de variabilidad se pueden pronosticar a
partir de otra variable, el procedimiento Estimacin
ponderada permite calcular los coeficientes de un
modelo de regresin lineal mediante mnimos cuadrados
ponderados (MCP, WLS), de forma que se les d mayor
ponderacin a las observaciones ms precisas (es decir,
aqullas con menos variabilidad) al determinar los
coeficientes de regresin.
Ejemplo.
Cules son los efectos de la inflacin y el paro sobre los cambios en
el precio de las acciones? Debido a que los valores con mayor valor de
cotizacin suelen mostrar ms variabilidad que aquellos con menor
valor de cotizacin, la estimacin de mnimos cuadrados ordinarios no
generar estimaciones que sean ptimas. El mtodo de Estimacin
ponderada permite capturar el efecto del precio de cotizacin sobre la
variabilidad de los cambios en el precio, al calcular el modelo lineal. 213
Estimacin ponderada ( MCP- WLS)
214
Regresin Logstica
Consideraciones sobre los datos
Fases fundamentales
Fundamentos Funcin logstica
Clculo de las probabilidades pronosticadas
Interpretacin de los coeficientes
El problema de clasificacin
Estadsticos: Puntuacin de Rao, Chi cuadrado, Wald
Regresin logstica versus anlisis discriminante
215
Regresin Logstica
La regresin logstica resulta til para los casos en los
que se desea predecir la presencia o ausencia de una
caracterstica o resultado segn los valores de un
conjunto de variables predictoras.
Es similar a un modelo de regresin lineal pero est
adaptado para modelos en los que la variable
dependiente es dicotmica.
Grupo 1
Variables independientes Variable dependiente
dicotmica
Grupo 2
218
Regresin Logstica
Grupo 1
Variables independientes Variable dependiente
o predictoras (covariables) dicotmica
Grupo 2
1
Y ( B0 B1 X )
1 e
222
Ejemplo
Supongamos que interesa explicar y predecir si una persona
ha votado o no en las ltimas elecciones a partir de un
conjunto de caractersticas socio-demogrficas.
La variable que distingue a los sujetos que manifiestan haber
votado de aquellos que manifiestan no haber votado es la
variable voto.
Vot en 1992?
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos S vot 1032 68,8 71,1 71,1
No vot 420 28,0 28,9 100,0
Total 1452 96,8 100,0
Perdidos Sis tema 48 3,2
Total 1500 100,0
223
Ejemplo
Consideremos en primer lugar la variable lee como variable
independiente (Lee el peridico?)
Lee el peridico?
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos S lee 862 57,5 85,3 85,3
No lee 148 9,9 14,7 100,0
Total 1010 67,3 100,0
Perdidos Sis tema 490 32,7
Total 1500 100,0
Lee el peridico?
S lee No lee Total
Vot en S vot Recuento 624 68 692
1992? % de Lee el peridico? 74,9% 47,6% 70,9%
No vot Recuento 209 75 284
% de Lee el peridico? 25,1% 52,4% 29,1%
Total Recuento 833 143 976
% de Lee el peridico? 100,0% 100,0% 100,0%
225
Ejemplo
226
Ecuacin logstica
Si existen variables capaces de predecir la abstencin, entonces es
posible incluirlas en un modelo de regresin y utilizarlas para
corregir las estimaciones de proporcin de votantes y no votantes.
1
P(Y 1)
1 e ( B0 B1 X )
227
Definida la ecuacin que puede utilizarse, el objetivo consiste en
encontrar una variable que discrimine bien entre los dos posibles
valores de Y.
La figura muestra cuatro curvas logsticas correspondientes a
cuatro posibles variables independientes o predictoras.
228
Las curvas se encuentran ordenadas por orden creciente de
capacidad discriminativa. Puesto que el coeficiente que controla la
pendiente de la curva es B1, una buena variable predictora ser
aquella que genere una curva con mucha pendiente (es decir, una
variable que tenga asociado un coeficiente muy alto, en valor
absoluto), mientras que una mala variable predictora ser aquella
que genere una curva sin pendiente o con muy poca pendiente (es
decir, que tenga asociado un coeficiente B1 prximo a 0, en valor
absoluto).
229
Supongamos, por simplicidad, que para clasificar a un sujeto
como votante o abstencionista se decide establecer como
punto de corte el valor de probabilidad 0,5.
0 1
0,5
Los sujetos con un pronstico
mayor que 0,5 son
Los sujetos con un pronstico clasificados como
menor o igual que 0,5 son abstencionista
clasificados como votantes
230
Clculo de las probabilidades pronosticadas
1 1
P(Y 1) B0 B1 X
( 1,094 1,192 X )
1 e 1 e
Donde Y=0 S vot X=0 S lee
Y=1 No vot X=1 No lee
231
Clculo de las probabilidades pronosticadas
En el caso de que un encuestado no lea el peridico , la
probabilidad pronosticada por la ecuacin de regresin
logstica para la categora No vot vale:
1 1
P(Y 1 X 1) 1,094 1,192 1
0,098
0,5245
1 e 1 e
1 1
P Y 1 X 0 = 0, 2509
1,094 1,192 0
1 e 1 e 1,094
232
Clculo de las probabilidades pronosticadas
P Y 1
1/ 1 e
B0 B1 X
e B0 B1 X
P Y 0
11/ 1 e 0 1
B B X
P Y 1
ln B0 B1 X
P Y 0
Este modelo se ajusta a un modelo de regresin lineal. Por tanto, el
coeficiente de regresin de un modelo logstico puede interpretarse
como el cambio que se produce en la transformacin logit (en el
logaritmo de la ventaja del suceso Y = 1) por cada unidad de
cambio que se produce en la variable independiente.
Un coeficiente positivo debe interpretarse como un incremento
en la probabilidad que el individuo tome el valor 1 debido a una
variacin unitaria en la variable, mientras que un valor negativo
debe interpretarse como una disminucin en la misma
probabilidad 235
Interpretacin de los coeficientes
Con los datos del ejemplo, la transformacin logit del suceso No
vot (Y = 1), cuando el encuestado Lee el peridico (X = 0) vale:
P Y 1 X 0 0, 2509
ln
P Y 0
B0 ln ln 0,335 1, 094
X 0 1 0, 2509
P Y 1 X 1 0,5245
ln
P Y 0
B0 B1 ln ln 1,103 0, 098
X 1 1 0,5245
Por tanto, la diferencia entre ambos logaritmos permite obtener el valor del
coeficiente:
B1 0,098 1,094 1,192
236
Interpretacin de los coeficientes
As, en el modelo de regresin logstica, el coeficiente de regresin
asociado a una variable independiente representa el cambio
producido en la transformacin logit por unidad de cambio en
la variable independiente.
237
Interpretacin de los coeficientes
238
El problema de la clasificacin
Una ecuacin de regresin logstica raramente arroja pronsticos
con valores 0 y 1, es decir, raramente genera una curva en forma
de escaln Lo habitual es encontrar que la probabilidades
pronosticadas adoptan valores comprendidos entre 0 y 1.
0 1
0,291 Los sujetos con un pronstico
Los sujetos con un pronstico mayor que el punto de corte
menor o igual que el punto de son clasificados en el grupo
corte son clasificados en el que no votan
grupo que s votan
240
En los modelos con ms de una variable independiente se
incrementa el nmero de valores distintos que es posible
pronosticar
Existen dos caminos alternativos para determinar el punto de corte
ptimo, es decir, para encontrar cul es el valor (la probabilidad) a
partir del cual se consigue diferenciar al mximo a los sujetos de
uno y otro grupo y, consecuentemente, para efectuar la mejor
clasificacin posible.
Tabla de clasificacina
Pronosticado
Tabla de clasificacina
Pronosticado
242
Tabla de clasificacina
Pronosticado
Tabla de clasificacina
Pronosticado
243
Regresin logstica mltiple
244
Estadstico de puntuacin de Rao
La tabla siguiente contiene los valores del estadstico de
puntuacin de Rao. Este estadstico mide la contribucin
individual de cada variable a la mejora del ajuste global del modelo.
El nivel crtico (Sig) asociado a cada estadstico indica qu variables
contribuyen significativamente al ajuste. Puede verse que,
exceptuando la variable hijos, todas las variables incluidas en el
anlisis son significativas; por tanto, buenas candidatas para formar
parte del modelo de regresin. La ltima lnea, Estadsticos
globales, contiene una valoracin global de todas las variables
independientes tomadas juntas.
Variables que no estn en la ecuacin
Puntuacin gl Sig.
Paso Variables LEE 45,137 1 ,000
0 EDAD 20,956 1 ,000
EDUC 60,910 1 ,000
INGFAM91 53,935 1 ,000
HIJOS ,188 1 ,664
Estadsticos globales 136,954 5 ,000
245
El estadstico chi-cuadrado
Pruebas omnibus sobre los coeficientes del modelo
Chi-cuadrado gl Sig.
Pas o 1 Pas o 143,754 5 ,000
Bloque 143,754 5 ,000
Modelo 143,754 5 ,000
R cuadrado
-2 log de la R cuadrado de
Pas o veros imilitud de Cox y Snell Nagelkerke
1 a
970,392 ,143 ,205
a. La es timacin ha finalizado en el nmero de
iteracin 5 porque las es timaciones de los
parmetros han cambiado en menos de ,001.
Pronosticado
248
Variables en la ecuacin
2
Coeficiente
Estadstico de Wald
E.estndar
Es un estadstico similar a una t2. Cuando el nivel crtico
(Sig.) asociado al estadstico de Wald es menor que 0,05, se
puede rechazar la hiptesis nula y, por tanto, concluir que la
correspondiente variable independiente est
significativamente relacionada con la variable dependiente.
Un inconveniente de este estadstico es que es demasiado
sensible al tamao de los coeficientes; en general, cuando el
valor de un coeficiente es muy grande (en valor absoluto) el
estadstico de Wald es poco fiable. En estos casos es
preferible evaluar la significacin de las variables utilizando
un mtodo por pasos
250
Razn de las ventajas
251
Anlisis de regresin logstica por pasos
253
Regresin logstica versus anlisis discriminante
Datos y supuestos
Tcnica del anlisis factorial
Fases del anlisis factorial
Matriz de correlaciones
Extraccin de factores
Mtodos de Rotacin
Puntuaciones factoriales
256
Anlisis Factorial
El anlisis factorial es una tcnica de reduccin de datos que
sirve para encontrar grupos homogneos de variables a partir
de un conjunto numeroso de variables.
Objetivo
Buscar el nmero mnimo de dimensiones capaces de explicar el
mximo de informacin contenida en los datos.
Variables
258
Datos y supuestos
Supuestos
Los datos han de tener una distribucin normal bivariada para
cada pareja de variables, y las observaciones deben ser
independientes.
Ejemplo
Qu actitudes subyacentes hacen que las personas
respondan a las preguntas de una encuesta poltica de la
manera en que lo hacen? Con el anlisis factorial, se puede
investigar el nmero de factores subyacentes y, en muchos
casos, se puede identificar lo que los factores representan
conceptualmente. Adicionalmente, se pueden calcular las
puntuaciones factoriales para cada encuestado, que pueden
utilizarse en anlisis subsiguientes.
259
Tcnica del anlisis factoriaI.
F j W j1 X 1 W j 2 X 2 W j 3 X 3 ..... Wip X p
Wj son los coeficientes de las puntuaciones factoriales
P es el nmero de variables
260
Fases del Anlisis factorial
261
Ejemplo
Analicemos, por ejemplo, la pregunta del cuestionario cuyos
datos recoge el archivo trabajo.sav y referida a la evaluacin
por parte de los encuestados de la importancia que segn su
opinin pueden tener cada una de las causas que se
enumeran, en el alto ndice de paro en un pas.
262
El modelo matemtico que subyace a esta tcnica es similar
al de la regresin simple y en l cada variable aparece como
combinacin lineal de una serie de factores que no son en
este momento observables. Por ejemplo, B13 (la crisis
econmica) puede aparecer expresada como:
Estadsticos descriptivos
Des viacin
Media tpica N del anlis is
Cris is 3,93 ,882 1009
Poltica de empleo 3,91 ,933 1009
Empres arios 3,53 1,005 1009
Comodidad 3,02 1,133 1009
Preparacin 2,92 1,086 1009
Ganas de trabajar 2,85 1,203 1009
Bs queda 2,77 1,099 1009
Pluriempleo 3,57 1,005 1009
Reparto 3,87 ,877 1009
Figura 1
264
Matriz de correlaciones
Matriz de correlacionesa
Poltica de Ganas de
Cris is empleo Empres arios Comodidad Preparacin trabajar Bs queda Pluriempleo Reparto
Correlacin Cris is 1,000 ,397 ,185 -,120 -,003 -,157 -,101 ,019 ,084
Poltica de empleo ,397 1,000 ,202 -,077 -,050 -,104 -,078 ,054 ,103
Empres arios ,185 ,202 1,000 ,028 -,010 -,024 ,044 ,101 ,161
Comodidad -,120 -,077 ,028 1,000 ,336 ,559 ,387 ,214 ,043
Preparacin -,003 -,050 -,010 ,336 1,000 ,425 ,345 ,115 ,045
Ganas de trabajar -,157 -,104 -,024 ,559 ,425 1,000 ,451 ,195 ,071
Bs queda -,101 -,078 ,044 ,387 ,345 ,451 1,000 ,231 ,134
Pluriempleo ,019 ,054 ,101 ,214 ,115 ,195 ,231 1,000 ,376
Reparto ,084 ,103 ,161 ,043 ,045 ,071 ,134 ,376 1,000
Sig. (Unilateral) Cris is ,000 ,000 ,000 ,457 ,000 ,001 ,273 ,004
Poltica de empleo ,000 ,000 ,007 ,057 ,000 ,006 ,044 ,001
Empres arios ,000 ,000 ,185 ,373 ,221 ,082 ,001 ,000
Comodidad ,000 ,007 ,185 ,000 ,000 ,000 ,000 ,087
Preparacin ,457 ,057 ,373 ,000 ,000 ,000 ,000 ,077
Ganas de trabajar ,000 ,000 ,221 ,000 ,000 ,000 ,000 ,012
Bs queda ,001 ,006 ,082 ,000 ,000 ,000 ,000 ,000
Pluriempleo ,273 ,044 ,001 ,000 ,000 ,000 ,000 ,000
Reparto ,004 ,001 ,000 ,087 ,077 ,012 ,000 ,000
a. Determinante = ,240
Figura 2
Poltica de Ganas de
Cris is empleo Empres arios Comodidad Preparacin trabajar Bs queda Pluriempleo Reparto
Cris is 1,239 -,441 -,134 ,061 -,115 ,138 ,059 -,008 -,049
Poltica de empleo -,441 1,223 -,153 ,014 ,034 ,024 ,048 -,043 -,059
Empres arios -,134 -,153 1,086 -,063 ,032 ,054 -,058 -,038 -,128
Comodidad ,061 ,014 -,063 1,548 -,148 -,674 -,207 -,160 ,080
Preparacin -,115 ,034 ,032 -,148 1,290 -,376 -,231 ,005 ,005
Ganas de trabajar ,138 ,024 ,054 -,674 -,376 1,740 -,361 -,067 -,027
Bs queda ,059 ,048 -,058 -,207 -,231 -,361 1,380 -,144 -,086
Pluriempleo -,008 -,043 -,038 -,160 ,005 -,067 -,144 1,247 -,427
Reparto -,049 -,059 -,128 ,080 ,005 -,027 -,086 -,427 1,201
Figura 4
En la tabla tenemos la inversa de la matriz de correlaciones, los KMO
(Kaiser-Meyer-Olkin) y el test de Bartlett. Este ltimo, es decir, el test de
Bartlett, se utiliza para verificar si la matriz de correlaciones es una matriz de
identidad, es decir, si todos los coeficientes de la diagonal son iguales a la
unidad y los externos a la diagonal iguales a O.
266
El ndice KMO
Este estadstico se obtiene a partir de la transformacin X2 del
determinante de la matriz de correlaciones y cuanto mayor sea y
por
tanto menor el grado de significacin, ms improbable que la
matriz sea una matriz de identidad. En el ejemplo, con un valor
1434,418 y un grado de significacin p = 0,000 resulta evidente
que no se trata de una matriz de identidad.
267
El ndice KMO
El ndice KMO nos compara los coeficientes de correlacin de
Pearson obtenidos en la Figura 2 con los coeficientes de
correlacin parcial entre variables. Se obtiene
ij
r
i j
2
KMO
r a
i j
2
ij
i j
2
ij
268
El ndice KMO
Si la suma de los coeficientes de correlacin parcial al cuadrado es
muy pequea, KMO ser un ndice muy prximo a la unidad y por
tanto el anlisis factorial un procedimiento adecuado. En cambio,
valores pequeos en este ndice nos dan a entender todo lo
contrario. De hecho para Kaiser :
Empresarios
Preparacin
Comodidad
Pluriempleo
Poltica de
Bsqueda
Ganas de
Reparto
trabajar
empleo
Crisis
Cris is ,807 -,291 -,100 ,032 -,072 ,064 ,034 -,005 -,033
Covarianza anti-imagen
Poltica de em pleo -,291 ,818 -,115 ,007 ,022 ,011 ,028 -,028 -,040
Em pres arios -,100 -,115 ,921 -,038 ,023 ,029 -,039 -,028 -,098
Com odidad ,032 ,007 -,038 ,646 -,074 -,250 -,097 -,083 ,043
Preparacin -,072 ,022 ,023 -,074 ,775 -,168 -,130 ,003 ,003
Ganas de trabajar ,064 ,011 ,029 -,250 -,168 ,575 -,151 -,031 -,013
Bs queda ,034 ,028 -,039 -,097 -,130 -,151 ,725 -,083 -,052
Pluriem pleo -,005 -,028 -,028 -,083 ,003 -,031 -,083 ,802 -,285
Reparto -,033 -,040 -,098 ,043 ,003 -,013 -,052 -,285 ,833
Cris is ,601 a -,358 -,116 ,044 -,091 ,094 ,045 -,006 -,040
Correlacin anti-imagen
Poltica de em pleo -,358 ,609 a -,132 ,010 ,027 ,016 ,037 -,034 -,048
Em pres arios -,116 -,132 ,690 a -,049 ,027 ,039 -,047 -,033 -,112
Com odidad ,044 ,010 -,049 ,744 a -,104 -,411 -,142 -,115 ,058
Preparacin -,091 ,027 ,027 -,104 ,791 a -,251 -,173 ,004 ,004
Ganas de trabajar ,094 ,016 ,039 -,411 -,251 ,721 a -,233 -,046 -,019
Bs queda ,045 ,037 -,047 -,142 -,173 -,233 ,816 a -,109 -,067
Pluriem pleo -,006 -,034 -,033 -,115 ,004 -,046 -,109 ,669 a -,349
Reparto -,040 -,048 -,112 ,058 ,004 -,019 -,067 -,349 ,591 a Figura 5
a. Medida de adecuacin m uestral
Todo ello nos lleva a concluir que el anlisis factorial que sigue a continuacin
resulta a priori pertinente y puede proporcionamos conclusiones satisfactorias.
271
Extraccin de factores
Mtodo. Permite especificar el mtodo de extraccin factorial. Los
mtodos disponibles son: Componentes principales, Mnimos
cuadrados no ponderados, Mnimos cuadrados generalizados,
Mxima verosimilitud, factorizacin de Ejes principales, factorizacin
Alfa y factorizacin Imagen.
En SPSS el sistema coge por defecto el mtodo de componentes
principales que es el que hemos utilizado en esta primera parte del
ejemplo.
272
Componentes principales (PC)
Inicial Extraccin
Cris is 1,000 ,644
Poltica de empleo 1,000 ,620 La comunalidad de una variable es
Empres arios
Comodidad
1,000
1,000
,329
,592
la proporcin de su varianza que
Preparacin 1,000 ,523 puede ser explicada por el modelo
Ganas de trabajar
Bs queda
1,000 ,684
factorial obtenido.
1,000 ,519
Pluriempleo 1,000 ,646
Reparto 1,000 ,693
Mtodo de extraccin: Anlis is de Componentes principales .
Figura 6
En la Figura 6 tenemos las comunalidades iniciales de la solucin
de componentes principales. Estos resultados se obtienen si en el
subcuadro de dilogo Descriptives de la Figura 2 y dentro de
Statistics seleccionamos Initial Solution. Si utilizamos tantos
componentes principales como variables, cada variable puede ser
explicada por ella misma y por tanto toda la variabilidad de cada
variable, que expresada en unidades de desviacin estandarizadas
es igual a la unidad, explicada a su vez por los factores comunes.
Esta es la razn por la que en la Figura 6 la comunalidad inicial es
igual a la unidad para todas las variables. 274
Valores propios
La decisin respecto al nmero de factores que deseamos para
representar los datos puede adoptarse desde una doble va que
es la que aparece en el subcuadro de dilogo Extraction. Por
defecto el sistema extraer tantos factores como haya en la
solucin inicial con valores propios (eigenvalues) superiores a la
unidad. En la Figura 7 vemos que hay tres factores con valores
propios superiores a 1 y que en definitiva ser el nmero que
extraer el sistema. Evidentemente, podemos cambiar el valor
por defecto correspondiente al eigenvalue. La segunda
posibilidad corresponde al botn de radio Number of factors y
consiste sencillamente en fijar un nmero entero determinado de
factores, siempre inferior, lgicamente, al nmero de variables.
Los autovalores (o valores propios) expresan la cantidad de
la varianza total que est explicada por cada factor; y los
porcentajes de varianza explicada asociados a cada factor se
obtienen dividiendo su correspondiente autovalor por la
suma de los autovalores (la cual coincide con el nmero de
variables
275
Matriz Varianza total explicada
Varianza total explicada
Figura 7
El grfico de sedimentacin
sirve para determinar el
nmero ptimo de factores.
Consiste simplemente en una
representacin grfica del
tamao de los autovalores.
Segn se ha sealado ya, los
autovalores indican la
cantidad de varianza que est
explicada por cada
componente principal
Figura 8
Tanto la tabla de porcentajes de varianza explicada como el grfico de
sedimentacin muestran los autovalores ordenados de mayor a menor: el
primer autovalor es el mayor de los posibles, el segundo autovalor es el mayor
de los restantes, y as sucesivamente. Si un autovalor se aproxima a cero,
esto significa que el factor correspondiente a ese autovalor es incapaz de
explicar una cantidad relevante de la varianza total. Por tanto, un factor al que
corresponde un autovalor prximo a cero se considera un factor residual y
277
carente de sentido en el anlisis.
Matriz de componentes
Matriz de componentesa
Componente
1 2 3 En la Figura 9 tenemos
Cris is -,229 ,640 ,426
Poltica de empleo -,185 ,668 ,373 los coeficientes
Empres arios
Comodidad
,020
,748
,569
-,036
,070
,177
utilizados para expresar
Preparacin ,629 ,002 ,357 cada variable
Ganas de trabajar ,804 -,085 ,174
Bs queda ,718 ,045 ,040
estandarizada en
Pluriempleo
Reparto
,436 ,437 -,515 trminos de los tres
,236 ,551 -,577
Mtodo de extraccin: Anlisis de componentes principales . factores del modelo.
a. 3 componentes extrados
Figura 9
278
Matriz de componentes
279
Matriz de componentes
Matriz de componentesa
Matriz de componentesa
Componente
Componente
1 2 3
1 2 3
Ganas de trabajar ,804 -,085 ,174
Ganas de trabajar ,804 ,174
Comodidad ,748 -,036 ,177
Comodidad ,748 ,177
Bs queda ,718 ,045 ,040
Bs queda ,718
Preparacin ,629 ,002 ,357
Preparacin ,629 ,357
Poltica de empleo -,185 ,668 ,373
Poltica de empleo -,185 ,668 ,373
Cris is -,229 ,640 ,426
Cris is -,229 ,640 ,426
Empres arios ,020 ,569 ,070
Empres arios ,569
Reparto ,236 ,551 -,577
Reparto ,236 ,551 -,577
Pluriempleo ,436 ,437 -,515
Pluriempleo ,436 ,437 -,515
Mtodo de extraccin: Anlisis de componentes principales .
Mtodo de extraccin: Anlisis de componentes principales .
a. 3 componentes extrados
a. 3 componentes extrados
282
Mtodos de Rotacin
Factor 2 Variables:
Factor 3 Variables:
B21: Que el trabajo que hay no se reparte bien socialmente.
B22: Que hay mucho pluriempleo.
286
Matriz de pesos factoriales
Matriz de componentes rotadosa Matriz de componentes rotadosa
Componente Componente
1 2 3 1 2 3
Ganas de trabajar ,818 -,111 ,055 Ganas de trabajar ,813 -,122 ,088
Comodidad ,765 -,058 ,062 Comodidad ,761 -,069 ,094
Preparacin ,712 ,085 -,095 Preparacin ,716 ,077 -,063
Bs queda ,688 -,056 ,205 Bs queda ,678 -,068 ,233
Cris is -,090 ,795 -,059 Cris is -,077 ,797 -,051
Poltica de empleo -,067 ,784 ,010 Poltica de empleo -,057 ,785 ,019
Empres arios ,027 ,512 ,257 Empres arios ,023 ,508 ,265
Reparto ,014 ,129 ,822 Reparto -,019 ,117 ,824
Pluriempleo ,226 ,033 ,771 Pluriempleo ,194 ,019 ,780
Mtodo de extraccin: Anlisis de componentes principales . Mtodo de extraccin: Anlisis de componentes principales .
Mtodo de rotacin: Normalizacin Quartimax con Kaiser. Mtodo de rotacin: Normalizacin Equamax con Kais er.
a. La rotacin ha convergido en 5 iteraciones . a. La rotacin ha convergido en 5 iteraciones .
Componente Componente
1 2 3 1 2 3
Ganas de trabajar ,815 -,118 ,076 Ganas de trabajar ,813 -,085 -,014
Comodidad ,762 -,065 ,083 Comodidad ,762 -,035 -,021
Preparacin ,715 ,080 -,074 Preparacin ,740 ,122 ,146
Bs queda ,682 -,064 ,224 Bs queda ,664 -,048 -,172
Cris is Cris is -,026 ,806 ,106
-,081 ,796 -,053
Poltica de empleo Poltica de empleo -,013 ,790 ,036
-,061 ,785 ,017
Empres arios Empres arios ,028 ,496 -,229
,024 ,509 ,263
Reparto -,091 ,056 -,834
Reparto -,008 ,120 ,823
Pluriempleo ,124 -,028 -,775
Pluriempleo ,205 ,023 ,777
Mtodo de extraccin: Anlisis de componentes principales .
Mtodo de extraccin: Anlisis de componentes principales .
Metodo de rotacin: Normalizacin Oblimin con Kaiser.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 5 iteraciones .
a. La rotacin ha convergido en 5 iteraciones .
287
Matriz de pesos factoriales
Matriz de configuracin.a
Componente
1 2 3
Ganas de trabajar ,815 -,068 -,002
Comodidad ,765 -,019 ,009
Preparacin ,751 ,136 -,154
Bs queda ,663 -,034 ,161
Cris is -,006 ,804 -,080
Poltica de empleo ,005 ,789 -,010
Empres arios ,034 ,497 ,246
Reparto -,111 ,057 ,841
Pluriempleo ,105 -,022 ,776
Mtodo de extraccin: Anlisis de componentes principales .
288
Grfico de componentes en espacio rotado
Grficamente podemos ver estos mismos resultados en la
Figura que corresponde al grfico tridimensional de la
solucin rotada VARIMAX y componentes principales.
289
Grfico de componentes en espacio rotado
290
Grfico de componentes en espacio rotado
291
Grfico de componentes en espacio rotado
En concreto y referido a los resultados del ejemplo en el grfico de las dos
primeras dimensiones:
Las variables:
B17: La falta de preparacin del trabajador.
B16: La comodidad de la gente, que slo quiere buenos trabajos.
B18: Las pocas ganas de trabajar de la gente.
B 19: El no saber buscar trabajo.
BI3: La crisis econmica.
B14: La poltica de empleo del gobierno
Son las variables que estn mejor representadas sobre el plano.
293
Puntuaciones factoriales
Puesto que la finalidad ltima del anlisis factorial es
reducir un gran nmero de variables a un pequeo
nmero de factores, es a veces aconsejable estimar
las puntuaciones factoriales de cada sujeto.
Matriz de coeficientes para el clculo de las
puntuaciones en las componentes
Componente
1 2 3
Cris is -,093 ,380 ,382
Poltica de empleo -,076 ,397 ,335
Empres arios ,008 ,338 ,063
Comodidad ,305 -,021 ,159
Preparacin ,257 ,001 ,320
Ganas de trabajar ,328 -,051 ,156
Bs queda ,293 ,027 ,036
Pluriempleo ,178 ,259 -,462
Reparto ,096 ,327 -,518
Mtodo de extraccin: Anlisis de componentes principales .
Puntuaciones de componentes .
294
Nota: Aunque en la prctica el anlisis factorial
(AF) y el mtodo de componentes principales
(PC) se utilizan indistintamente y dan resultados
similares, conviene sealar que as como en el
anlisis de componentes principales el objetivo
consiste en encontrar una serie de
componentes que expliquen el mximo de
variancia total de las variables originales, el
objetivo del anlisis factorial es encontrar una
serie de factores que expliquen el mximo de
variancia comn de las variables originales.
295