0% encontró este documento útil (0 votos)
120 vistas10 páginas

Modelos de regresión multivariante

La regresión multivariante permite establecer relaciones entre una variable dependiente y múltiples variables independientes. Existen dos tipos de modelos: predictivos, que permiten predecir valores, y explicativos, que cuantifican las relaciones para explicar mecanismos. Al construir los modelos es importante seleccionar las variables independientes correctas y considerar posibles variables de confusión y efectos de interacción entre variables.

Cargado por

Paco Serrano
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
120 vistas10 páginas

Modelos de regresión multivariante

La regresión multivariante permite establecer relaciones entre una variable dependiente y múltiples variables independientes. Existen dos tipos de modelos: predictivos, que permiten predecir valores, y explicativos, que cuantifican las relaciones para explicar mecanismos. Al construir los modelos es importante seleccionar las variables independientes correctas y considerar posibles variables de confusión y efectos de interacción entre variables.

Cargado por

Paco Serrano
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Construccin de modelos de regresin multivariantes

Preparado por Luis M. Molinero (Alce Ingeniera) Abril 2002 Se conoce como anlisis de regresin multivariante al mtodo estadstico que permite establecer una relacin matemtica entre un conjunto de variables X1, X2 .. Xk (covariantes o factores) y una variable dependiente Y. Se utiliza fundamentalmente en estudios en los que no se puede controlar por diseo los valores de las variables independientes, como suele ocurrir en los estudios epidemiolgicos y observacionales. Los objetivos de un modelo de regresin puede ser dos: Obtener una ecuacin que nos permita "predecir" el valor de Y una vez conocidos los valores de X1, X2 .. Xk. Se conocen como modelos predictivos. Cuantificar la relacin entre X1, X2 .. Xk y la variable Y con el fin de conocer o explicar mejor los mecanismos de esa relacin. Se trata de modelos explicativos, muy utilizados cuando se busca encontrar qu variables afectan a los valores de un parmetro fisiolgico, o cules son los posibles factores de riesgo que pueden influir en la probabilidad de que se desarrolle una patologa. La disponibilidad y facilidad de uso del software que permite la construccin de modelos de regresin nos ha hecho olvidar que se trata de tcnicas complejas, que requieren un cierto conocimiento de la metodologa estadstica subyacente, por lo que nos encontramos con excesiva frecuencia una pobre utilizacin de las tcnicas de regresin y una peor descripcin de cmo se emplearon en cada caso concreto, e incluso una ausencia total de esa explicacin, y se comunica los resultados como si la propia ecuacin de regresin fuera sin ms un "artculo de fe" que no necesitara de una cuidadosa validacin. Un problema fundamental que se plantea a la hora de construir un modelo multivariante es qu factores X1, X2 .. Xk incluir en la ecuacin, de tal manera que estimemos el mejor modelo posible a partir de los datos de nuestro estudio. Para ello lo primero que habra que definir es qu entendemos por "mejor modelo". Si buscamos un modelo predictivo ser aqul que nos proporcione predicciones ms fiables, ms acertadas; mientras que si nuestro objetivo es construir un modelo explicativo, buscaremos que las estimaciones de los coeficientes de la ecuacin sean precisas, ya que a partir de ellas vamos a efectuar nuestras deducciones. Cumplidos esos objetivos es claro que otra caracterstica deseable de nuestro modelo es que sea lo ms sencillo posible.

Variable de confusin
En el rea de los modelos explicativos aparece un concepto de gran importancia, el de variable de confusin. Se dice que existe "confusin" cuando la relacin entre dos variables difiere de forma importante si se considera el efecto de una tercera, alterando por tanto de alguna manera la interpretacin de esa relacin. Veamos un ejemplo. Si estamos estudiando mediante una muestra aleatoria una poblacin de diabticos y analizamos la posible relacin entre la PAS y la edad y sexo de los pacientes, obtenemos mediante un modelo de regresin lineal la siguiente ecuacin Trmino Constante EDAD SEXO Coef. 116,285 0,328 2,042 [Link]. t p 2,8410 40,931 0,0000 0,0432 7,592 0,0000 1,0486 1,947 0,0515

donde la variable SEXO se ha codificado como 0 para los hombres y 1 para las mujeres, de tal manera que el cambio medio de la PAS, estimado por esta ecuacin, cuando comparamos a los hombres y a las mujeres manteniendo fija la edad, es de aproximadamente de 2 mmHg (p = 0.052). Sin embargo si controlamos tambin el ndice de masa corporal (IMC) introducindolo en la ecuacin, obtenemos: Trmino Constante EDAD SEXO IMC Coef. 101,834 0,321 1,387 0,514 [Link]. 4,0727 0,0426 1,0428 0,1051 t 25,004 7,531 1,330 4,889 p 0,0000 0,0000 0,1835 0,000001

donde comprobamos que al incluir el ndice de masa corporal IMC, el coeficiente de regresin de la variable SEXO se ha modificado drsticamente (ha disminuido en ms del 30 %), lo que quizs modifica nuestra interpretacin de la relacin, ya que si se tiene en cuenta el IMC la influencia del sexo no es relevante. En este caso el IMC sera un factor de confusin que deberamos incluir en la ecuacin y ello aunque, al contrario de lo que ahora ocurre, su coeficiente no fuera significativo. En la prctica habitual vemos que el criterio que se utiliza incorrectamente para incluir o no en la ecuacin una posible variable de confusin se basa en comprobar si el coeficiente correspondiente es significativamente diferente de 0, para lo cual slo se mira el valor de la probabilidad asociado a ese contraste. Sin embargo no es esa la nica cuestin, sino si su introduccin en la ecuacin modifica apreciablemente o no la relacin entre la variable dependiente y el otro factor o factores estudiados. Se trata pues de utilizar un enfoque clnico o fisiolgico, ya que hay que determinar desde ese punto de vista qu consideramos como cambio apreciable en el coeficiente de la ecuacin de regresin.

Interaccin
Un segundo concepto importante es el de interaccin. Decimos que existe interaccin en la relacin entre dos variables cuando los valores de una tercera afectan a esa relacin, magnificndola o disminuyndola, o ms raramente ambas cosas dependiendo del nivel de la tercera variable. Es decir que la magnitud de la relacin es diferente segn los niveles de esa tercera variable. As, por ejemplo, podramos encontrar que la media de la PAS aumenta con la edad, pero que ese aumento es mayor en el grupo de pacientes fumadores que en el de no fumadores, de tal manera que si representamos grficamente la relacin PAS, EDAD en cada uno de los grupos obtenemos unas rectas de regresin como las de la figura

La forma ms simple de incorporar la presencia de interaccin entre dos variables en una ecuacin de regresin consiste en incluir en sta el producto de ambas:

donde E es la variable edad y F fumador (0=no fumador, 1=fumador) Segn esta ecuacin el cambio medio de y cuando la variable E cambia 1ao es depende tambin del valor de F, lo que no ocurrira si b3=0. , es decir que

Seleccin de variables
Un paso importante en la construccin de un modelo de regresin es el de la eleccin de variables a incluir y cules no. Los mecanismos para la seleccin de variables no son fciles de especificar ya que dependen en gran medida del tipo de modelo (predictivo o explicativo), del contexto de utilizacin y de las propias caractersticas del proceso analizado. Quizs la nica norma clara es que ante dos posibles modelos, similares en otros aspectos, preferiremos el que sea ms sencillo y que menos suposiciones necesite para su construccin (es lo que se denomina principio de parsimonia). Para poder decidir entre utilizar un modelo con unas determinadas variables o con otras ser preciso disponer de una medida de comparacin entre modelos. En la regresin lineal se utiliza para comparar dos modelos la F parcial, que en el caso de que se contrasten dos modelos que difieren en una sola variable es idntico a utilizar el valor de la t para el coeficiente de regresin de la nueva variable. En la regresin logstica, y en general en cualquier modelo de regresin cuyos coeficientes se estimen por el mtodo de mxima verosimilitud, se utiliza el cociente de verosimilitud, que es una medida, a partir de los datos de nuestra muestra, de cunto ms probable (verosmil) es un modelo frente al otro. Este parmetro se distribuye segn una chi2 con grados de libertad igual a la diferencia entre el nmero de variables de los dos modelos. Si no es suficientemente grande decimos que no hay evidencia para pensar que un modelo es mejor

que el otro y por tanto nos quedaremos con el ms sencillo. Existen diferentes estrategias sistemticas para la eleccin de variables a incluir en los modelos que se van a evaluar. Podemos empezar con un modelo con todas las variables e interacciones regresin hacia atrs, a partir del cual vamos eliminando variables cuya presencia no mejora la calidad del modelo segn el criterio especificado. O por el contrario, podemos empezar con una sola variable independiente e ir aadiendo aquellas variables e interacciones que mejoran significativamente el modelo regresin hacia adelante. Otra alternativa, no siempre factible si el nmero de variables es suficientemente grande y no se dispone del software adecuado, es evaluar todos los modelos de regresin posibles con todas las combinaciones de variables. La regresin "stepwise", traducida habitualmente como regresin por pasos, es una versin modificada del proceso de regresin hacia adelante en la que en cada nuevo paso, cuando se incluye una nueva variable, adems se reconsidera el mantener las que ya se haba aadido previamente, es decir que no slo puede entrar una nueva variable en cada paso sino que puede salir alguna de las que ya estaban en la ecuacin. El proceso finaliza cuando ninguna variable de las que no estn en la ecuacin cumple la condicin para entrar y de las incorporadas a la ecuacin ninguna cumple la condicin para salir. El conjunto de variables que finalmente quede incluido en la ecuacin de regresin puede depender del camino seguido a la hora de seleccionarlas, salvo en el caso de que se evaluen todos los modelos de regresin posibles que obviamente slo tiene una conclusin. Cualquiera que sea el mtodo que se piense utilizar para la seleccin de variables ste debe comenzar con un cuidadoso anlisis univariante de la posible relacin entre la variable dependiente y cada uno de los factores estudiados.

Colinealidad
Algunos autores recomiendan utilizar la estrategia de regresin hacia atrs, comenzando entonces con un modelo en el que se incluyen todas las variables y las posibles interacciones de inters (modelo mximo). Cuando el nmero de variables es grande con relacin al de datos y sobre todo si existe una marcada correlacin entre alguna de ellas, puede ocurrir que no sea posible obtener una estimacin adecuada de los coeficientes de la ecuacin de regresin. Supongamos, en el caso extremo, que se introduce en la ecuacin dos variables que en realidad son la misma, es decir una sola con diferentes nombres. Cmo se reparte entonces el coeficiente de regresin? Si llamamos X a esa variable que entra dos veces en la ecuacin tendramos los siguientes trminos en la ecuacin

o lo que es lo mismo

pero hay infinitas formas de repartir una cantidad en dos valores b1 y b2!, por lo que el algoritmo que utiliza el programa de clculo de los coeficientes de regresin no encuentra una solucin. En el caso de que la relacin entre las variables no sea tan perfecta como en el ejemplo planteado, en el que se trata exactamente de la misma, el problema sigue existiendo y aunque quizs el algoritmo de clculo encuentre una solucin para la estimacin de los coeficientes puede ocurrir que sta solucin no sea adecuada, debido a un problema de precisin en la estimacin, y adems siempre ser muy dependiente de los datos actuales, de tal manera que una pequea variacin de stos produce una alteracin importante en los valores de los coeficientes de la ecuacin. Es lo que en trminos matemticos se conoce como una solucin inestable.

Cuando existe correlacin importante entre dos o ms variables independientes de una ecuacin de regresin se dice en terminologa matemtica que existe colinealidad y es algo que deberamos comprobar si se produce o no en nuestro modelo de regresin.

Diagnstico del modelo de regresin


Un aspecto que se olvida frecuentemente es que los modelos de regresin se basan en hacer unas determinadas suposiciones sobre los datos y que stas no siempre se cumplen, por lo que es preciso comprobar si las hiptesis bsicas del modelo se dan en nuestros datos. Es lo que se conoce como diagnstico del modelo. En el caso de los modelos de regresin lineal se utiliza el concepto de residuo: diferencia entre el valor observado y el valor estimado por la ecuacin de regresin, es decir lo que la ecuacin de regresin no explica para cada unidad de observacin. En un modelo de regresin lineal que sea adecuado los residuos deben seguir una distribucin normal con media 0 y varianza constante, por lo que un posible diagnstico puede ser comprobar esa situacin. Se puede efectuar de manera formal o mediante una grfica en la que se representa el valor de los residuos frente al valor estimado, como se ilustra en la siguiente figura

En la grfica anterior vemos que en este ejemplo efectivamente los residuos se distribuyen de forma simtrica a ambos lados del eje 0 y a lo largo de todo el rango de valores de la estimacin y la variabilidad parece constante. Sin embargo en la siguiente grfica esto no se cumple lo que en este caso nos est indicando la presencia de un modelo inadecuado

La representacin de los residuos frente a cada una de las variables independientes X nos permite detectar la falta de linealidad o la heterocedasticidad (se dice que existe heterocedasticidad cuando la dispersin o varianza de la variable no es constante y vara con el valor de sta). En estos casos puede que sea necesario introducir nuevos trminos (como por ejemplo X2) para considerar esa falta de linealidad, o bien transformaciones matemticas de las variables. Para otros tipos de modelos de regresin regresin logstica, modelos de riesgo proporcional de Cox para supervivencia, etc la metodologa es similar pero ms compleja.

Valores anmalos
Los valores extraos (outliers) son aquellos datos extremos, que parecen anmalos, y que unas veces son debidos a errores de registro al introducir los datos, pero en otras son valores correctos realmente observados. En el caso de la regresin su presencia puede alterar de forma notable los resultados. En la siguiente figura se representa la recta de regresin (univariante) que se obtiene utilizando todos los datos (color verde) y la que se obtiene cuando se elimina del anlisis un slo dato, el que se seala en la zona inferior derecha. En el primer caso el valor del coeficiente de regresin es 0.98 y en el segundo 0.72. La introduccin de ese nico dato en una muestra de 100 produce un cambio en el coeficiente de regresin del 27 %.

Es por tanto muy importante un cuidadoso anlisis de los valores extremos e incluso efectuar un anlisis de regresin con y sin ellos, para valorar cmo afecta su presencia a los coeficientes de la ecuacin de regresin.

Validacin del modelo


Los modelos de regresin pueden ser validados en otro conjunto de datos de similares caractersticas extrados de la misma poblacin, con el fin de evaluar su fiabilidad. Otra posibilidad, cuando se trabaja con muestras grandes, es dividir aleatoriamente la muestra en dos grupos y utilizarlos para obtener dos modelos con el fin compararlos para comprobar si se obtienen similares resultados. Un ndice empleado para validar el modelo se basa en estimar la ecuacin de regresin en una de las submuestras y calcular el coeficiente de correlacin Ra entre los valores observados y los valores estimados por la ecuacin (este coeficiente coincide con el valor del coeficiente de correlacin mltiple). Despus aplicamos la ecuacin de regresin al otro grupo para calcular el valor estimado de Y para cada unidad de observacin y calculamos el coeficiente de correlacin Rb entre ese valor estimado y el valor realmente observado. La diferencia entre el cuadrado de ambos coeficientes se denomina ndice de reduccin en la validacin cruzada. Valores de este ndice inferiores a 0.1 indican que el modelo es muy fiable mientras que valores superiores a 0.9 corresponden a modelos muy poco fiables.

Presentacin de modelos de regresin


De lo anteriormente expuesto parece lgico concluir las siguientes normas de presentacin de modelos de regresin Indicar en una tabla los coeficientes de la ecuacin de regresin, con su error estndar, estadstico de contraste para el coeficiente (t, chi2, F, test de Wald) y valor de probabilidad asociado. Especificar qu variables fueron candidatas a ser consideradas en la ecuacin de regresin y qu camino se sigui para seleccionar las definitivamente incluidas Especificar si se evalu la posible presencia de interaccin entre las variables Especificar si se comprob la posible existencia de colinealidad entre variables. Especificar si se revisaron los valores extremos y si stos se incluyeron en el modelo o no, y cmo afectan a los resultados. Especificar qu diagnsticos se han realizado sobre el modelo.

Especificar si se efectu algn tipo de validacin del modelo Para finalizar no nos resistimos a citar un texto de KJ Rothman, que aunque un poco largo no puede ser ms claro y cuya opinin, aunque un poco extrema, nos parece digna de tenerse en cuenta: "La primera experiencia que se tiene con el anlisis multivariado le deja a uno con la impresin de que acaba de serle revelado un milagro de la tecnologa del anlisis de datos; el mtodo permite controlar la confusin y evaluar las interacciones de multitud de variables con gran eficiencia estadstica. Mejor an, un ordenador efectua todos los clculos y te imprime con limpieza los resultados. La temeraria experiencia de solicitarle que consiga todas estas metas analticas, para luego simplemente poner en orden y publicar la sofisticada salida con apenas una pausa para volver a teclear, es indiscutiblemente tentadora. Ciertamente puede incluso llegar a ser decepcionante ver cmo el anlisis que culmina el trabajo de semanas, meses o aos de recogida de datos se acaba en un tiempo tan corto y los resultados se comprimen de manera tan compacta. Por til que pueda ser sin embargo, el anlisis multivariado no es una panacea estadstica. Su mayor inconveniente radica en la barrera que inserta entre el investigador y los datos. Otros mtodos analticos facilitan una comprensin ntima de stos, haciendo consciente al investigador de la existencia de irregularidades o deficiencias unas pocas entrada de celda crticas con frecuencias pequeas, por ejemplo. Los mtodos multivariados dificultan esta intimidad con los datos. Otro inconveniente, relacionado con ste, se halla en la falta de capacidad para comunicar a otros el mensaje de los resultados. Algunos lectores se sienten poco familiarizados e incmodos con los modelos matemticos que se maneja y todos ellos, lo mismo que los investigadores, obtienen una comprensin ms clara de los datos si lo que se presentan son frecuencias tabuladas. La creciente disponibilidad de hardware y software ha significado el pistoletazo de salida para una avalancha de datos mal digeridos, gran parte de ella caracterizada por su anlisis desestructurados y pobremente interpretados, que conducen al investigador hacia la meta de la investigacin por accidente, si es que le conducen a alguna parte. En la literatura cientfica, uno se encuentra frecuentemente con situaciones en las que los mtodos analticos sencillos podran haber sido aplicados, pero se los dej de lado en favor del anlisis multivariado sin una razn clara. Al epidemilogo, de entrada, le merece ms la pena apoyarse, siempre que sea posible, en los procedimientos del anlisis estratificado, que son ms directos y que engendran una mayor familiaridad con los datos tanto para el investigador como para el lector." Y como complemento a este texto recomendamos la lectura del artculo Commentary: Prognostic models: clinically useful or quickly forgotten? donde muy lcidamente se exponen las posibles razones de por qu la gran mayora de los modelos predictivos que se publican en medicina tienen una vida tan efmera.

Enlaces de inters
Commentary: Prognostic models: clinically useful or quickly forgotten? Jeremy C Wyatt and Douglas G Altman BMJ 1995; 311: 15391541. [Texto completo] Rice Virtual Lab in Statistics Case Studies Examples of real data with analyses and interpretation Multiple regression: basic concepts and procedures Department of psychology. University of Exeter Multiple regression. Selecting the best equation (PDF)

Department of Mathematics and Statistics. University of Saskatchewan, Saskatoon, Saskatchewan Canada Selection of the best regression model (PDF) Biostatistics. Harvard School of Public Health

Bibliografa seleccionada
Applied regression analysis and other multivariate methods David G. Kleinbaum, Lawrence L. Kupper, Keith E. Muller, Azhar Nizam Kupper, Muller, Nizam Ed. Duxbury Press 1998 Applied Logistic Regression David W. Hosmer, Stanley Lemeshow [Link] Wiley New York 1989 Epidemiological research David G. Kleinbaum, Lawrence L. Kupper, Hal Morgentern [Link] Wiley New York 1982 Epidemiologa moderna Kenneth J. Rothman [Link] de Santos Madrid 1986

Algunos ejemplos de artculos sobre hipertensin en los que se utiliza modelos de regresin
Survival in treated hypertension: follow up study after two decades Ove K Andersson, Torbjrn Almgren, Bengt Persson, Ola Samuelsson, Thomas Hedner, and Lars Wilhelmsen BMJ 1998; 317: 167171. [Abstract] [Texto completo] Casecontrol study of stroke and the quality of hypertension control in north west England Xianglin Du, Kennedy Cruickshank, Roseanne McNamee, Mohamad Saraee, Joan Sourbutts, Alison Summers, Nick Roberts, Elizabeth Walton, and Stephen Holmes BMJ 1997; 314: 272. [Abstract] [Texto completo] Obstructive sleep apnoea syndrome as a risk factor for hypertension: population study Peretz Lavie, Paula Herer, and Victor Hoffstein BMJ 2000; 320: 479482. [Abstract] [Texto completo] Diabetes mellitus and raised serum triglyceride concentration in treated hypertensionare they of prognostic importance? Observational study Ola Samuelsson, Kjell Pennert, Ove Andersson, Goran Berglund, Thomas Hedner, Bengt Persson, Hans Wedel, and Lars Wilhelmsen BMJ 1996; 313: 660663. [Abstract] [Texto completo] Pressor reactions to psychological stress and prediction of future blood pressure: data from the Whitehall II study Douglas Carroll, George Davey Smith, David Sheffield, Martin J Shipley, and Michael G Marmot BMJ 1995; 310: 771775. [Abstract] [Texto completo]

Obesity, Hypertension, and the Risk of Kidney Cancer in Men Chow W.H., Gridley G., Fraumeni J. F., Jrvholm B. [ Abstract ] [ Texto completo ] N Engl J Med 2000; 343:13051311, Nov 2, 2000. Original Articles The Effect of Nisoldipine as Compared with Enalapril on Cardiovascular Outcomes in Patients with NonInsulinDependent Diabetes and Hypertension Estacio R. O., Jeffers B. W., Hiatt W. R., Biggerstaff S. L., Gifford N., Schrier R. W. [ Abstract ] [ Texto completo ] N Engl J Med 1998; 338:645652, Mar 5, 1998. Original Articles

Indice de artculos

Principio de la pgina

También podría gustarte