Universidad Tecnológica De
Panamá
Licenciatura en Ingeniería
Mecánica
Grupo:
1IM121
Materia:
Probabilidad y Estadística
Tema:
Métodos de Regresión y Correlación
Presentado Por:
María Celina Martínez Bonilla
4-779-1710
Profesor:
Luis Pomares
Panamá, 21 de junio de 2020.
Tabla de contenido
Introducción.............................................................................................................4
MÉTODOS DE REGRESIÓN Y CORRELACIÓN....................................................5
1. MODELO LINEAL SIMPLE................................................................................5
1.1 Definición........................................................................................................................5
1.2 Supuestos del Modelo..................................................................................................7
1.3 Métodos de Mínimos cuadrados para encontrar la ecuación de mejor ajuste
8
1.4 Medición del coeficiente de correlación................................................................10
1.5 Medición del Coeficiente de Determinación.........................................................11
1.6 Medición del error de estimación............................................................................13
1.7 Verificación gráfica de los supuestos de modelo...............................................13
1.8 Problemas Resueltos del Modelo............................................................................16
2. MODELO LINEAL MÚLTIPLE.........................................................................19
2.1 Definición......................................................................................................................19
2.2 Supuestos de Modelo.................................................................................................20
2.3 Metodos de Minimos cuadrados para encontrar la ecuación de mejor ajuste
21
2.4 Medición del Coeficiente de Correlación...............................................................22
2.5 Medición del Coeficiente de Determinación.........................................................24
2.6 Medición del coeficiente de correlación................................................................25
2.7 Medición del error de estimación............................................................................26
2.8 Problemas Resueltos del Modelo............................................................................27
3. MODELO EXPONENCIAL...............................................................................31
3.1 Definición......................................................................................................................31
3.2 Supuestos de Modelo.................................................................................................33
3.3 Métodos de Mínimos Cuadrados para encontrar la Ecuación de mejor ajuste
34
3.4 Medición del coeficiente de correlación................................................................35
3.5 Medición del coeficiente de determinación..........................................................36
3.6 Medición de error de estimación.............................................................................36
3.7 Verificación gráfica de los supuestos del modelo..............................................37
3.8 Problemas Resueltos del modelo............................................................................38
Conclusiones.........................................................................................................43
Bibliografía e Infografía.........................................................................................44
Introducción
La regresión lineal es la técnica básica del análisis econométrico. Mediante dicha
técnica tratamos de determinar relaciones de dependencia de tipo lineal entre una
variable dependiente o endógena, respecto de una o varias variables explicativas
o exógenas. Gujarati (1975), define el análisis de regresión como el estudio de la
dependencia de la variable dependiente, sobre una o más variables explicativas,
con el objeto de estimar o predecir el valor promedio poblacional de la primera en
términos de los valores conocidos o fijos (en medias muestrales repetidas) de las
últimas.
En este trabajo abordaré temas importantes dentro del estudio de los métodos de
regresión y correlación, entre ellos el simple, múltiple y exponencial, así como sus
respectivos supuestos de modelo, coeficientes de correlación y determinación,
entre otros aspectos relevantes.
MÉTODOS DE REGRESIÓN Y CORRELACIÓN
1. MODELO LINEAL SIMPLE
1.1 Definición
La correlación lineal y la regresión lineal simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables.
En algunos casos la naturaleza de las variables permite suponer que existe
relación de dependencia entre ellas, es decir, que los valores de una variable Y
(variable dependiente o endógena) dependen o están influidos por los valores de
otra variable, X (variable independiente o exógena). En el caso en que pueda
suponerse una relación lineal de dependencia, ésta podrá sintetizarse mediante
un modelo de regresión.
A partir del diagrama de dispersión y de los resultados obtenidos en el análisis de
correlación puede decidirse si está relación es de tipo lineal. En este caso, los
puntos del diagrama de dispersión aparecen tanto más próximos a una línea recta
ajustada a la nube de puntos cuanto más intenso es el grado de asociación. Por
otra parte, según sea el sentido de la asociación dicha línea tendrá pendiente
positiva si el coeficiente de correlación simple, r, es positivo y negativa en caso
contrario.
El punto de partida del modelo de regresión lineal simple (MRLS) es que la
relación entre ambas variables no es de tipo determinista, sino estocástico; de
forma que para cada valor de X existe una distribución de probabilidad de Y,
siendo la relación tal que los valores esperados de las distribuciones de
probabilidad de Y asociadas a cada uno de los valores de X están situados sobre
una línea recta, llamada recta de regresión poblacional, que se expresa como:
donde:
ßo: El valor de la ordenada donde la línea de regresión se interseca al eje
Y.
ß1: El coeficiente de regresión poblacional (pendiente de la línea recta)
ε: El error.
A la ecuación que describe la relación entre el valor esperado de y, que se denota
E(x), y x se le llama ecuación de regresión. La siguiente es la ecuación de
regresión para la regresión lineal simple, la misma se expresa como:
E(y)= ßo + ß1x
Ejemplos de líneas de regresión en la regresión lineal simple.
1.2 Supuestos del Modelo
Los valores deben cumplir con una serie de requisitos para que sea pertinente el
uso del modelo de regresión. Estos requisitos pueden ser aplicados a la variable
Y, que es la otra variable aleatoria implicada en el modelo de regresión.
Para poder crear un modelo de regresión lineal es necesario que se cumpla con
los siguientes supuestos:
1. Que la relación entre las variables sea lineal.
2. Que los errores en la medición de las variables explicativas sean
independientes entre sí.
3. Que los errores tengan varianza constante. (Homocedasticidad)
4. Que los errores tengan una esperanza matemática igual a cero (los errores
de una misma magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.
Formalmente estos requisitos o supuestos se expresan así:
Gráfico de y vs x
Homocedasticidad se refiere al supuesto de que la variable dependiente (Y)
presenta una distribución con igual varianza en todo el rango de valores de la
variable independiente (X).
Homocedasticidad vs Heterocedasticidad
La normalidad de los errores permite la estimación por intervalos de
confianza no sólo para los coeficientes de regresión, sino también para
la predicción. Permite el planteamiento de pruebas de hipótesis sobre
los parámetros del modelo. Cuando los errores no son normales, los
intervalos y las pruebas de hipótesis no son exactas y pueden llegar
a ser inválidas (Behar, 2003).
1.3 Métodos de Mínimos cuadrados para encontrar la ecuación de
mejor ajuste
El método de mínimos cuadrados es un método en el que se usan los datos
muestrales para hallar la ecuación de regresión estimada.
Es un procedimiento de análisis numérico en la que, dados un conjunto de datos
(pares ordenados y familia de funciones), se intenta determinar la función continua
que mejor se aproxime a los datos (línea de regresión o la línea de mejor ajuste),
proporcionando una demostración visual de la relación entre los puntos de los
mismos. En su forma más simple, busca minimizar la suma de cuadrados de las
diferencias ordenadas (llamadas residuos) entre los
puntos generados por la función y los correspondientes
datos.
Este método se utiliza comúnmente para analizar una
serie de datos que se obtengan de algún estudio, con
el fin de expresar su comportamiento de manera lineal
y así minimizar los errores de la data tomada.
La creación del método de mínimos cuadrados
generalmente se le acredita al matemático alemán Carl
Friedrich Gauss, quien lo planteó en 1794 pero no lo
publicó sino hasta 1809. El matemático francés Andrien-
Marie Legendre fue el primero en publicarlo en 1805, este
lo desarrolló de forma independiente.
Carl Friedrich Gauss
Su expresión general se basa en la ecuación de una recta y = mx + b. Donde m es
la pendiente y b el punto de corte, y vienen expresadas de la siguiente manera:
El método de mínimos cuadrados calcula a partir de los N pares de datos
experimentales (x, y), los valores m y b que mejor ajustan los datos a una recta.
Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias d de
los puntos medidos a la recta.
Mínimos cuadrados Teniendo una serie de datos (x, y), mostrados en un gráfico
o gráfica, si al conectar punto a punto no se describe una
recta, debemos aplicar el método de mínimos
cuadrados, basándonos en su expresión general:
Cuando se haga uso del método de mínimos cuadrados se debe buscar una línea
de mejor ajuste que explique la posible relación entre una variable independiente y
una variable dependiente. En el análisis de regresión, las variables dependientes
se designan en el eje y vertical y las variables independientes se designan en el
eje x horizontal. Estas designaciones formarán la ecuación para la línea de mejor
ajuste, que se determina a partir del método de mínimos cuadrados.
1.4 Medición del coeficiente de correlación
El Coeficiente de correlación es una medida que permite conocer el grado de
asociación lineal entre dos variables cuantitativas (X, Y).
Podemos observar que en un diagrama B los puntos se acercan más a la recta,
caso contrario en el diagrama A, los puntos están más alejados. Entonces
podemos decir que la relación lineal del diagrama A es más débil con comparación
a la relación que existe en el diagrama B.
Un diagrama dispersión no nos da certeza de que tan débil o fuerte es la relación
lineal, necesitamos una medida que nos de la fuerza de la asociación y la
dirección que toma esta relación.
Para esto sirve el coeficiente de correlación que esta dado por la siguiente
formula:
Donde:
SXY = covarianza
SXSY= Desviación Estándar de X multiplicada por la Desviación Estándar de Y.
1.5 Medición del Coeficiente de Determinación
El coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un
estadístico usado en el contexto de un modelo estadístico cuyo principal propósito
es predecir futuros resultados o probar una hipótesis. El coeficiente determina la
calidad del modelo para replicar los resultados, y la proporción de variación de los
resultados que puede explicarse por el modelo.
En un modelo de regresión lineal el coeficiente de determinación es adimensional
y se calcula del siguiente modo:
Donde la suma total es la varianza muestral de la variable endógena multiplicada
por el tamaño de la muestra; por lo tanto, mide las fluctuaciones de esta variable
alrededor de su media; y, la suma residual indica cuál es el nivel de error que se
comete con el modelo estimado al explicar la variable endógena.
El coeficiente de determinación siempre va a ser menor o igual que 1 (sería igual a
1 si el modelo estimado puede explicar completamente la variable dependiente sin
ningún error, lo cual es muy improbable en la práctica) y si, además, el modelo
tiene término independiente, entonces el R2 es mayor o igual que cero.
Si el modelo tiene término independiente, existen diferentes expresiones que
permiten el cálculo del R2, tales como:
donde, la suma explicada es el grado de fluctuación de la variable dependiente
que el modelo de regresión estimado es capaz de explicar; es el vector de
parámetros estimados del modelo, X es la matriz de observaciones de las
variables explicativas del modelo, y es el vector de observaciones de la variable
dependiente, T es el número de observaciones de las variables del modelo, e
es el cuadrado de la media de la variable dependiente.
El R2 también se puede calcular como el cuadrado del coeficiente de correlación
entre y (variable dependiente) e (variable dependiente estimada a través del
modelo de regresión).
El coeficiente de determinación no solo mide la capacidad explicativa de un
modelo sino que, además, permite elegir entre varios modelos cuál es el más
adecuado. Así si los modelos tienen la misma variable dependiente y el mismo
número de variables explicativas, será más adecuado el que tenga un coeficiente
de determinación mayor.
1.6 Medición del error de estimación
Error de estimación es el valor absoluto de la diferencia entre una estimación
particular y el valor del parámetro.
En realidad por cada valor estimado del parámetro se tiene un error de estimación
por lo general diferente. Sin embargo, es posible fijar un intervalo dentro del cual
se encontrarán la mayoría de los valores de error de estimación para un estimador
y parámetro dados.
Los estimadores se usan cuando los parámetros que se incluyen en las fórmulas
de los errores de estimación son desconocidos.
1.7 Verificación gráfica de los supuestos de modelo
Los 4 supuestos son:
1. Linealidad: E(Y ) = Xβ
2. Homoscedasticidad: V ar(€i) = σ2 = cte.
3. Normalidad: €i tienen distribución Normal
4. Independencia de los errores: i independiente de €j si i 6≠ j.
1.8 Problemas Resueltos del Modelo
Problema 2
Problema 3
2. MODELO LINEAL MÚLTIPLE
2.1 Definición
El análisis de regresión múltiple estudia la relación de una variable dependiente
con dos o más variables independientes. Para denotar el número de variables
independientes se suele usar p. Existen muchas técnicas de regresión en función
del tipo de variables y de la forma funcional supuesta entre ellas. Las más
elementales (aunque las más potentes en el sentido de que se puede obtener más
información) son las lineales. La regresión lineal supone que la relación entre dos
variables tiene una forma lineal (o linealizable mediante alguna transformación de
las variables). La regresión lineal tiene una versión “simple” que empareja dos
variables, pero esta suele ser insuficiente para entender fenómenos mínimamente
complejos en la que influyen más de dos variables, esta versión es la “múltiple”.
En el modelo de regresión lineal múltiple suponemos que más de una variable
tiene influencia o está correlacionada con el valor de una tercera variable. Por
ejemplo en el peso de una persona pueden influir edad, género y estatura, en la
renta pueden influir trabajo, capital físico, conocimientos, etc. En el modelo de
regresión lineal múltiple esperamos que los sucesos tengan una forma funcional
como
donde y es la variable endógena, x las variables exógenas, u los residuos y b los
coeficientes estimados del efecto marginal entre cada x e y.
Modelo lineal múltiple
2.2 Supuestos de Modelo
Los conceptos de modelo de regresión y ecuación de A la ecuación que describe
cómo está relacionada la variable dependiente y con las variables independientes
x_1, x_2, . . ., x_ρ se le conoce como modelo de regresión múltiple. Se supone
que el modelo de regresión múltiple toma la forma siguiente:
En el modelo de regresión múltiple, β 0, β 1, β 2, . . . , β ρ, son parámetros y el término
del error ε (la letra griega épsilon) es una variable aleatoria. Examinando con
atención este modelo se ve que y es una función lineal de x 1, x 2, . . ., x ρ (la parte β 0
+ β 1 x 1 + β 2 x 2...+ β ρ x ρ ) más el término del error ρ. El término del error corresponde
a la variabilidad en y que no puede atribuirse o explicarse al efecto lineal de las p
variables independientes.
Uno de los supuestos es que la media o valor esperado de ε es cero. Una
consecuencia de este supuesto es que la media o valor esperado de y, que se
denota E(y), es igual a A la ecuación β 0 + β 1 x 1 + β 2 x 2...+ β ρ x ρ que describe cómo
está relacionada la media de y con x 1, x 2, . . ., x ρ se le conoce como ecuación de
regresión múltiple.
Para poder crear un modelo de regresión lineal es necesario que se cumpla con
los siguientes supuestos:
Linealidad: Que la relación entre las variables sea lineal.
Independencia: Que los errores en la medición de las variables explicativas
sean independientes entre sí.
Homocedasticidad: Que los errores tengan varianza constante.
Normalidad: Que las variables sigan la Ley Normal.
No colinealidad: Que las variables independientes no estén correlacionadas
entre ellas.
2.3 Metodos de Minimos cuadrados para encontrar la ecuación
de mejor ajuste
El método para obtener la ecuación de regresión estimada que permitía aproximar
mejor la relación lineal entre las variables dependiente e independiente también se
usa para obtener la ecuación de regresión múltiple estimada. El criterio está en el
método de mínimos cuadrados.
El procedimiento más objetivo para ajustar una recta a un conjunto de datos
presentados en un diagrama de dispersión se conoce como "el método de los
mínimos cuadrados".
La recta resultante presenta dos características importantes:
Es nula la suma de las desviaciones verticales de los puntos a partir de la recta
de ajuste.
∑ (Y ー - Y) = 0.
Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra
recta daría una suma menor de las desviaciones elevadas al cuadrado.
∑ (Y ー - Y)² → 0(mínima).
Los valores estimados de la variable dependiente se calculan empleando la
ecuación de regresión múltiple estimada
^
y =¿ β 0 ¿ + β 1 x 1 + β 2 x 2...+ β ρ x ρ
el método de mínimos cuadrados emplea datos muestrales para obtener los
valores de β 0, β 1, β 2, . . ., β ρ que hacen que la suma de los cuadrados de los
residuales [las diferencias entre los valores observados de la variable dependiente
( y i) y los valores estimados de la variable dependiente ( ^y )] sea un mínimo. En la
regresión múltiple, en cambio, las fórmulas para calcular β 0, β 1, β 2, . . ., β ρ
emplean álgebra de matrices y quedan fuera del alcance de este texto. Por esta
razón, en el estudio de la regresión múltiple, se centrará la atención en el uso de
los paquetes de software para obtener la ecuación de regresión estimada y
algunas otras informaciones. Lo importante será la interpretación de los resultados
que proporcionan estos paquetes de software y no cómo hacer los cálculos para la
regresión múltiple.
2.4 Medición del Coeficiente de Correlación
La correlación lineal múltiple estima los coeficientes de la ecuación lineal, con una
o más variables independientes, que mejor prediga el valor de la variable
dependiente. Por ejemplo, se puede intentar predecir el total de facturación
lograda por servicios prestados en una IPS cada mes (la variable dependiente) a
partir de variables independientes tales como: Tipo de servicio, edad, frecuencia
del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.
Conceptualmente, el FIVi (Factor de incremento de la varianza) es la proporción
de variabilidad de la iésima variable, que explican el resto de las variables
independientes. La tolerancia de una variable es la proporción de variabilidad de la
variable, que no se explica por el resto de las variables independientes. La
tolerancia y el FIV son muy útiles en la construcción de modelos de regresión. Si
construimos un modelo paso a paso entrando las variables de una en una, es útil
conocer la tolerancia o el FIV de las variables independientes ya entradas en la
ecuación. De esta manera, las variables con mayor tolerancia son las que mayor
información aportarán al modelo. Además de la tolerancia y el FIV, debemos
estudiar la matriz de correlaciones. Altas correlaciones entre las variables
implicadas en el modelo deben considerarse como indicios de colinealidad. Puede
ocurrir que, aun siendo pequeñas las correlaciones entre las variables exista
colinealidad. Supongamos que tenemos K variables independientes y construimos
otra que sea la media de los valores de las otras K variables, en este caso la
colinealidad será completa, pero si K es grande, los coeficientes de correlación
serán pequeños. Por lo tanto, el estudio de la matriz de correlaciones no es
suficiente. Una técnica que cada vez se utiliza más, aunque resulta algo
sofisticada, es el análisis de los autovalores de la matriz de correlaciones o de la
matriz del producto cruzado. A partir de los autovalores, se puede calcular el
índice de condicionamiento IC tanto global del modelo como de cada variable. El
índice de condicionamiento es la raíz cuadrada del cociente entre el máximo y el
mínimo autovalores. Si el IC es mayor que 30, existe colinealidad elevada, si el IC
es mayor que 10 y menor que 30, la colinealidad es moderada, si el IC es menor
que 10, no existe colinealidad. También es interesante el índice de
condicionamiento para cada variable Ici, que es la raíz cuadrada del cociente del
máximo autovalor y el iésimo autovalor. La varianza de cada coeficiente de
regresión, incluida la constante, puede ser descompuesta como la suma de
componentes asociadas a cada uno de los autovalores si el porcentaje de la
varianza de algunos coeficientes de correlación se asocia con el mismo autovalor,
hay evidencia de colinealidad.
PASOS:
Identificar Xi, Y
Construir diagrama de dispersión
Estimar los parámetros del modelo.
Probar la significancia
Determinar la fuerza de la asociación
Verificar la exactitud de la predicción
Análisis de residuales
Validación cruzada del modelo
2.5 Medición del Coeficiente de Determinación
Una vez estimada la ecuación de regresión lineal tiene interés determinar la
exactitud del ajuste realizado. Para ello hay que analizar la variación que
experimenta esta variable dependiente y, dentro de esta variación, se estudia qué
parte está siendo explicada por el modelo de regresión y qué parte es debida a los
errores o residuos.
La forma de realizar dicho análisis es a partir de la siguiente expresión:
SCT=SCE+SCR
donde:
SCT es la Suma de Cuadrados Totales y representa una medida de la
variación de la variable dependiente.
SCE es la Suma de Cuadrados Explicados por el modelo de regresión.
SCR es la Suma de Cuadrados de los Errores
Cuando el modelo tiene término independiente, cada una de estas sumas viene
dada por:
Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios
que tengan el mismo número de variables exógenas, ya que la capacidad
explicativa de un modelo es mayor cuanto más elevado sea el valor que tome
este coeficiente. Sin embargo, hay que tener cierto cuidado a la hora de trabajar
con modelos que presenten un R2 muy cercano a 1 pues, aunque podría
parecer que estamos ante el modelo “perfecto”, en realidad podría encubrir
ciertos problemas de índole estadística.
Por otra parte, el valor del coeficiente de determinación aumenta con el número
de variables exógenas del modelo por lo que, si los modelos que se comparan
tienen distinto número de variables exógenas, no puede establecerse
comparación entre sus R2. En este caso debe emplearse el coeficiente de
determinación corregido (R2), el cual depura el incremento que experimenta el
coeficiente de determinación cuando el número de variables exógenas es
mayor.
La expresión analítica de la versión corregida es:
2.6 Medición del coeficiente de correlación
La correlación es la medida de la fuerza de relación lineal entre dos variables,
después de controlar los efectos de otras variables en el modelo; es decir, el grado
de asociación entre Y Una variable explicativa, eliminando el efecto lineal de todas
las otras variables explicativas. Mide la fuerza de la relación entre Y una sola
variable independiente, considerando la cantidad en que se reduce la variación
explicada al incluir esta variable en la ecuación de regresión. Esta correlación se
representa por:
Expresiones que se leen:
Correlación de las variables Y-X1, Cuando se tiene controlado el
efecto X2 en un modelo. También se puede leer :Correlación Y-X1 ,Cuando X2 ya
está en el modelo.
Correlación de las variables Y-X1, Cuando se tienen
controlados los efectos de X2 y X3 en un modelo.
Correlación de las variables X3 , X4 y X5 con Y
cuando se tienen controlados los efectos de X1 y X2 en un modelo.
2.7 Medición del error de estimación
El error estándar múltiple de la estimación es la medida de la eficiencia de la
ecuación de regresión.
Esta medida en las mismas unidades que la variable dependiente.
Es difícil determinar cuál es un valor grande y cual es un valor pequeño para el
error estándar.
La fórmula es:
Donde n es el número de observaciones y k es el número de variables
independientes.
2.8 Problemas Resueltos del Modelo
Usando los siguientes datos, consumo nacional (C t) y renta nacional (Rt) en
España para el periodo 1995-2005 a precios corrientes (109 euros), obtenga las
estimaciones por MCO, así como las sumas de
cuadrados total, explicada y residual, y el coeficiente
de determinación, para el modelo de regresión Ct =
β1 + β2Rt + ut.
3. MODELO EXPONENCIAL
3.1 Definición
Una regresión exponencial es el proceso de encontrar la ecuación de la función
exponencial que se ajuste mejor a un conjunto de datos. Como un resultado,
obtenemos una ecuación de la forma donde .
La potencia predictiva relativa de un modelo exponencial está denotada por R 2 .
El valor de R 2 varía entre 0 y 1. Mientras más cercano el valor esté de 1, más
preciso será el modelo.
La regresión exponencial, aunque no es lineal es linealizable tomando logaritmos
ya que haciendo el cambio de variable
v = log y tendremos que la función anterior nos generaría:
v = log y = log( [Link]) = log a + x log b
la solución de nuestro problema vendría de resolver la regresión lineal entre v ý x,
y una vez obtenida supuesta ésta:
v* = A + B x ; obviamente la solución final será:
a = antilog A y b = antilog B.
Modelo Exponencial
A pesar de la sencillez analítica de sus funciones de definición, la distribución
exponencial tiene una gran utilidad práctica ya que podemos considerarla como un
modelo adecuado para la distribución de probabilidad del tiempo de espera entre
dos hechos que sigan un proceso de Poisson. De hecho, la distribución
exponencial puede derivarse de un proceso experimental de Poisson con las
mismas características que las que enunciábamos al estudiar la distribución de
Poisson, pero tomando como variable aleatoria, en este caso, el tiempo que tarda
en producirse un hecho.
Obviamente, entonces, la variable aleatoria será continua. Por otro lado, existe
una relación entre el parámetro a de la distribución exponencial, que más tarde
aparecerá, y el parámetro de intensidad del proceso λ , esta relación es λ = l
Al ser un modelo adecuado para estas situaciones tiene una gran utilidad en los
siguientes casos:
Distribución del tiempo de espera entre sucesos de un proceso de Poisson
Distribución del tiempo que transcurre hasta que se produce un fallo, si se
cumple la condición que la probabilidad de producirse un fallo en un instante
no depende del tiempo transcurrido. Aplicaciones en fiabilidad y teoría de la
supervivencia.
Resulta que la exponencial es un caso especial de la distribución gamma, ambas
tienen un gran número de aplicaciones. Las distribuciones exponencial y gamma
juegan un papel importante tanto en teoría de colas como en problemas de
confiabilidad. El tiempo entre las llegadas en las instalaciones de servicio y el
tiempo de falla de los componentes y sistemas eléctricos, frecuentemente
involucran la distribución exponencial. La relación entre la gamma y la exponencial
permite que la distribución gamma se utilice en tipos similares de problemas.
3.2 Supuestos de Modelo
La densidad de probabilidad y la función de distribución del modelo exponencial
uniparamétrico vienen dadas por:
donde 1/θ
representa la media de la variable aleatoria T, tiempo aleatorio entre fallos. El
cálculo de este parámetro se obtiene de forma directa como sigue:
A continuación, se resumen las principales características de esta distribución:
Mediana
Moda
Desviación Estándar
Función de Replicabilidad
Fiabilidad
Condicional
3.3 Métodos de Mínimos Cuadrados para encontrar la Ecuación
de mejor ajuste
La regresión examina la relación entre dos variables, pero restringiendo una de
ellas con el objeto de estudiar las variaciones de una variable cuando la otra
permanece constante. En otras palabras, la regresión es un método que se
emplea para predecir el valor de una variable en función de valores dados a la otra
variable. En todos los casos de regresión existe una dependencia funcional entre
las variables. En el caso de dos variables, siendo una de ellas (X) variable
independiente y la otra (Y) la dependiente, se habla de regresión de Y sobre X;
Por ejemplo, los ingenieros forestales utilizan la regresión de la altura de
los árboles sobre su diámetro, lo cual significa que midiendo el diámetro (variable
independiente) y reemplazando su valor en una relación definida según la clase de
árbol se obtiene la altura, y aun sin necesidad de cálculos aprecian la altura
utilizando gráficas de la función de dependencia, altura = función del diámetro.
Cuando la curva de regresión de y sobre x es exponencial, es decir para cualquier
x considerada, la media de la distribución está dada por la siguiente ecuación
predictora:
3.4 Medición del coeficiente de correlación
De la definición de la covarianza se deduce que esta tiene una dimensión igual al
producto de las dimensiones de las magnitudes aleatorias X y Y.
Si X y Y están en cm, C(x,y) estará en cm².
Esto es una deficiencia de esta característica numérica, puesto que se dificulta la
comprensión de las covarianzas para distintos sistemas de variables aleatorias.
Para evitar esta deficiencia se define el coeficiente de correlación que se denota
(X,Y) y se define como:
Interpretación de un valor dado de (X,Y):
| (X,Y)| = 1 Cuando una variable aleatoria es una función lineal exacta de la otra
(y=mx+b)
(X,Y)=1 Si m es positiva
(X,Y)=-1 Si m es negativa
(X,Y) > 0 (cercano a 1); cuando una variable aumenta sus valores, la otra tiende
a aumentar también (fuerte correlación lineal positiva)
(X,Y) < 0 (cercano a -1); cuando una variable aumenta sus valores, la otra tiende
a disminuir (fuerte correlación lineal negativa)
Entonces el coeficiente de correlación brinda información sobre el grado de
relación lineal entre las variables aleatorias.
Variables aleatorias incorrelacionadas
Si (X,Y) = 0 decimos que las variables aleatorias X y Y están incorrelacionadas o
no correlacionadas.
(X,Y) = 0 sí y solo sí C(X,Y) = 0
si (X,Y) ≠ 0 X y Y están correlacionadas
Propiedades de las variables aleatorias incorrelacionadas
1. (X,Y) = 0
2. C(X,Y) = 0
3. E(XY)= E(X)E(Y)
4. V(X+Y) = V(X-Y) = V(X) + V(Y)
3.5 Medición del coeficiente de determinación
3.6 Medición de error de estimación
Si predecimos la variable y mediante una exponencial de ecuación general:
y i=a ebx , Y el error cometido será: e i= y i− ^yi = y i−a e bx .
3.7 Verificación gráfica de los supuestos del modelo
Dada una variable aleatoria continua, X , definida para valores reales positivos.
diremos que X tiene una distribución exponencial de parámetro a cuando su
función de densidad sea: f(x) = a e-a x para x ³ 0 ( siendo el parámetro a positivo)
3.8 Problemas Resueltos del modelo
Conclusiones
La correlación lineal y la regresión lineal simple son métodos estadísticos
que estudian la relación lineal existente entre dos variables.
Por norma general, los estudios de correlación lineal preceden a la
generación de modelos de regresión lineal. Primero se analiza si ambas
variables están correlacionadas y, en caso de estarlo, se procede a
generar el modelo de regresión.
El método de mínimos cuadrados proporciona una forma de encontrar la
mejor estimación, suponiendo que los errores (es decir, las diferencias con
respecto al valor verdadero) sean aleatorias e imparciales.
El coeficiente de relación lineal mide la fuerza y el sentido de la relación
lineal entre 2 variables cuantitativas.
El coeficiente de determinación no solo mide la capacidad explicativa de un
modelo sino que, además, permite elegir entre varios modelos cuál es el
más adecuado.
El análisis de regresión múltiple permite tomar más factores en
consideración y obtener estimaciones mejores que las que son posibles con
la regresión lineal simple.
La técnica de la regresión nos ayuda a predecir mas no nos dice con exactitud lo
que ocurrirá ,dice lo que podría ocurrir ,nos propicia elementos de juicio para
decir ,pero lo que ocurrirá con cualquier fenómeno no estará bajo el control total.
En la regresión lineal y múltiple, se analiza la relación de dos o más variables
continuas
El método matemáticamente más exacto para encontrar la función de regresión es
por el método de mínimo cuadrado.
Bibliografía e Infografía
Behar, R. (2003). Validación de supuestos en el modelo de regresión. Serie
Monografías, Universidad del Valle, Cali, vol. 1 edition.
Draper, N. and Smith, H. (1998). Applied regression analysis. John Wiley &
Sons, New York, 3 edition
Montgomery, D.C. Peck, E. and Vinning, G. (2002). Introducción al análisis
de regresión lineal. CECSA, Mexico, 3 edition.
Rawlings, J. O., Pantula, S., and Dickey, D. (1998). Applied Regression
Analyisis: A Research Tool. Springer-Verlag, New York, 2 edition.
Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with
Special Reference to the Biological Sciences., McGraw Hill, 1960, pp. 187,
287.)
[Link]
[Link]
%20modelo%20de%20regresi%C3%B3n%20lineal,-Para%20poder%20crear&text=Que
%20la%20relaci%C3%B3n%20entre%20las,explicativas%20sean%20independientes
%20entre%20s%C3%AD.&text=Que%20los%20errores%20tengan%20una,y%20distinto
%20signo%20son%20equiprobables).
[Link]
correlacion-que-es-y-para-que-sirve/#:~:text=El%20Coeficiente%20de%20correlaci
%C3%B3n%20es,cuantitativas%20(X%2C%20Y).&text=Recordar%20entonces%20que%20el
%20coeficiente,lineal%20entre%202%20variables%20cuantitativas.
[Link]
[Link]
cuadrados/[Link]
[Link]